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1980 年 ,未 来 学 家 阿尔 文 * 托 夫 勒 将 大 数据 称 作 “第 三 次 浪潮 的 华 彩 乐章 ”, 与 大 数据 
相关 的 概念 ,技术 、 应 用 开始 进入 人 们 的 视野 ,人 们 开始 重新 认识 在 互联 网 时 代 各 类 信息 与 
行为 数据 所 具有 的 更 深层 的 意义 和 价值 。2016 年 ,在 中 国 杭州 召开 的 二 十 国 集团 (G20) 领 
导 人 第 十 一 次 峰会 ,大 数据 流动 的 便利 化 ,已 被 认为 是 未 来 国家 经 济 发 展 最 重要 的 动力 。 

在 微 信 QQ、 陌 陌 .云集 ,淘宝 ,京东 ,手机 银行 ,高 德 地 图 , 滴 滴 、 携 程 \. 网 盘 云端 . 手 游 
等 各 类 应 用 占 满 我 们 的 手机 屏幕 的 时 候 , 每 个 人 都 身 处 大 数据 的 旋涡 之 中 。 谁 在 产生 数据 ? 
谁 在 获取 数据 ? 谁 在 交易 数据 ? 谁 在 分 析 数 据 ? 谁 又 在 从 数据 中 获取 价值 呢 ? 

大 数据 是 新 兴 的 概念 , 却 不 是 新 的 事物 ,因为 数据 是 对 客观 事件 进行 观察 或 记录 的 结 
果 , 是 我 们 生活 或 生产 过 程 中 每 一 个 选择 ,决策 .交流 ` 发 布 . 分 享 等 行为 的 产物 ,可 以 说 数据 
在 人 类 之 初 就 有 ,直到 现代 数字 信息 技术 成 熟 , 当 TB 甚至 EB 量 级 的 数据 可 以 被 采集 、 存 
储 和 处 理 时 , 才 有 了 大 数据 。 

作为 未 来 经 济 发 展 的 “新 型 石油 ,数据 的 产生 是 广泛 的 、 随 机 的 、 多 源 的 、 离 散 的 。 从 事 
大 数据 工作 就 是 要 发 现 ,采集 .分 析 \ 研 究 TB 甚至 EB 量 级 的 数据 ,从 无 序 的 数据 中 找到 微 
妙 的 关联 和 规律 ,例如 * 啤 酒 与 尿 不 湿 ”, 从 而 对 当前 决策 进行 优化 ,对 未 来 趋势 进行 预测 。 

本 书 编写 的 初 庙 是 在 与 很 多 大 数据 从 业者 交流 中 ,发 现 大 数据 的 应 用 已 比 人 们 认识 的 
更 广泛 ,发 展 得 更 迅速 ,尽管 业内 生态 仍 需要 完善 ,数据 孤岛 依然 存在 ,相关 政策 和 标准 还 有 
待 制定 ,但 是 总 能 听 到 两 个 声音 :“ 我 们 有 好 的 实践 案例 想 与 大 家 分 享 , 听 取 更 多 的 建议 。 
“我 们 想 看 到 更 多 、 更 新 、 更 详细 的 案例 , 想 将 我 们 的 数据 变 成 真 的 黄金 ”因此 ,得 到 北京 邮 
电大 学 .阿里 云 研究 中 心 .电信 科学 技术 研究 院 . 国 家 信息 中 心 .京东 物流 、 美 林 数 据 、 明 略 数 
据 等 单位 的 大 数据 研究 人 员 的 支持 和 无 私 的 分 享 ,将 各 个 领域 的 应 用 案例 推荐 给 广大 的 读 
者 。 期 望 通过 本 书 ,能够 更 好 地 帮助 大 家 认识 大 数据 ,理解 大 数据 ,运用 大 数据 ,在 数据 的 海 
洋 中 挖掘 到 更 多 的 宝藏 。 

“互联 网 十 ”时 代 , 信 息 的 数字 化 ,移动 应 用 和 支付 的 普及 化 、 位 置 和 医疗 等 个 人 信息 的 
实时 获取 , 物 联网 万 事 万 物 的 互联 互通 …… 新 科技 、 新 概念 如 同 海浪 般 ,一 浪 推 荐 一 浪 翻 深 
前 进 ,大 数据 就 如 同 海中 的 浪花 一 般 随 波 前 行 , 且 随 着 一 浪 一 浪 的 相互 推动 而 越发 丰富 
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第 一 篇 ”大 数据 ,新 时 代 
的 代名词 


人 类 历史 上 从 未 有 哪个 时 代 和 今天 一 样 产生 如 此 海量 的 数据 ,数据 的 产生 
已 经 完全 不 受 时 间 、 地 点 的 限制 ,尤其 是 社交 网 络 、 电 子 商务 、 移 动 互联 网 等 领 
域 的 飞速 发 展 ,把 人 类 社会 带 入 了 一 个 以 PB(1PB= 1024TB,1TB= 1024GB) 为 
单位 的 结构 和 非 结 构 数据 构成 的 网 络 化 、 数 字 化 时 代 。 一 个 大 规模 生产 、 分 享 
和 应 用 数据 的 时 代 正 在 开启 。 

2016 年 10 月 ,在 杭州 举行 的 “互联 网 大 数据 高 峰 论 坛 ? 上 ,阿里 巴巴 原 副 总 
载 《 数 据 之 其 )》 的 作者 涂 子 汶 指 出 :“ 和 弄潮儿 向 涛 头 立 , 手 把 红旗 旗 不 湿 。 我 们 
今天 的 涛 头 就 是 互联 网 、 大 数据 。” 

中 国 科学 院 大 学 经 管 学 院 教 授 吕 本 富 ,在 (G20 国家 互联 网 发 展 研究 报告 》 
中 指出 “我 们 认为 ,未 来 数据 的 流动 将 是 世界 经 济 增长 最 重要 的 动力 来 源 。 如 
果 过 去 是 服务 的 便利 化 、 贸 易 的 便利 化 ,以 后 一 定 是 大 数据 流动 的 便利 化 ,成 为 
这 个 国家 经 济 发 展 最 重要 的 动力 。” 

大 数据 已 掀起 了 时 代 的 浪潮 ,任何 人 和 事 都 需要 用 数据 说 话 1 


数据 时 代 


使 -ee-e 


第 1 章 


人 一 全 ® 


“大 数据 ?一 词 近 五 年 在 百度 搜索 指数 中 的 整体 趋势 从 2012 年 开始 呈 快 速 增长 的 态势 ， 
并 在 2016 年 5 月 周平 均值 最 高 达 7287, 如 图 1-1 所 示 。 





图 1-1 “大 数据 ?的 百度 搜索 指数 
(数据 来 源 : 百度 指数 ,http://index. baidu. com/) 


2014 年 8 月 ,在 中 央 电视 台 财 经 频道 .综合 频道 ,纪录 频道 .科教 频道 播 出 了 一 套 10 集 
的 纪录 片 ( 互 联网 时 代 兴 别名 《大 数据 时 代 妨 ,这 是 中 国 第 一 部 ,甚至 也 是 全 球 电视 机 构 第 一 
次 全 面 .系统 深入、 客观 地 解析 互联 网 的 大 型 纪录 片 。 这 部 在 开播 前 没有 密集 的 节目 宣传 ， 
没有 明星 , 嗪 头 与 谈资 的 纪录 片 , 仅 是 在 社交 网 络 上 的 口 口 相传 ,百度 搜索 的 指数 就 从 0 开 
始 直线 攀升 至 15 127。2015 年 8 月 31 日 ,国务 院 印 发 (促进 大 数据 发 展 行动 纲要 》( 国 发 
52015]50 号 ) 。 指 出 主要 任务 是 : 加 快 政府 数据 开放 共享 ,推动 资源 整合 ,提升 治理 能 力 ; 
推动 产业 创新 发 展 , 培 育 新 兴业 态 ,助力 经 济 转型 ; 强化 安全 保障 ,提高 管理 水 平 ,促进 健康 
发 展 。 

这 些 数 据 和 现象 都 在 说 明 一 个 客观 事实 一 个 社会 热点 一 个 发 展 趋势 一 一 大 数据 的 发 
展 已 成 为 国家 发 展 战略 的 重要 组 成 部 分 ,大 数据 正在 或 已 经 成 为 时 代 前 进 的 代名词 。 如 何 
认识 大 数据 ,如 何 应 用 大 数据 ,是 从 IT 时 代 走 向 DT 时 代 的 必要 课题 。 


1.1 大 数据 溯源 


早 在 1980 年 ,著名 未 来 学 家 阿尔 文 * 托 夫 勒 在 其 所 著 的 (第 三 次 浪潮 ) 中 就 提出 “数据 
就 是 财富 ”, 并 热情 地 将 “大 数据 (Big Data) ”称颂 为 “第 三 次 浪潮 的 华 彩 乐 章 ”。 但 是 到 2008 
年 ,学 术 界 、 工 业界 甚至 于 政府 机 构 才 开始 密切 关注 大 数据 问题 。Nature 杂志 在 2008 年 9 
月 推出 了 名 为 “大 数据 ”的 封面 专栏 ,Science 则 在 2011 年 推出 了 专刊 Dealing with Data， 


\ 4 大 数据 : 引 如 新 的 价值 点 


主要 围绕 着 科学 研究 中 大 数据 的 问题 展开 讨论 ,说 明 大 数据 对 于 科学 研究 的 重要 性 0。 

大 数据 的 概念 和 技术 不 是 凭空 出 现 的 ,人 们 对 于 大 数据 的 认 知 或 许 最 早 来 自 托 夫 勒 在 
其 所 著 的 (第 三 次 浪潮 ), 但 是 人 类 对 于 数据 的 搜集 、 存 储 可 以 追溯 到 远古 时 代 , 对 于 事物 的 
数据 化 发 展 于 计算 机 的 出 现 。“ 大 数据 ?并 不 是 作为 一 个 全 新 的 事物 出 现 的 , 它 是 基于 人 类 
发 展 过 程 中 ,对 于 数据 搜集 存储、 分 析 能 力 的 提升 而 出 现 的 一 种 新 的 思维 方式 ,一 种 新 的 服 
务 模型 ,一 股 推动 经 济 社会 发 展 新 的 助力 。 


1.1.1 数据 起 源 


数据 (data) 是 对 客观 事件 进行 观察 或 记录 的 结果 ,是 对 客观 事物 的 性 质 、 状 态 以 及 相互 
关系 等 进行 记载 的 物理 符号 或 这 些 物理 符号 的 组 合 .是 对 客观 事物 的 逻辑 归纳 ,用 于 表示 客 
观 事 物 的 未 经 加 工 的 原始 素材 。 它 可 以 是 数字 ,也 可 以 是 具有 一 定 意义 的 文字 、 字 母 .数字 
符号 的 组 合 \ 图 形 、 图 像 、 视 频 、 音 频 等 ,是 可 识别 的 对 客观 事物 的 属性 、 数 量 \ 位 置 及 其 相互 
关系 的 抽象 表示 符号 。 

大 约 两 万 年 前 的 伊 尚 区 骨头 (Ishango Bone, 图 1-2) 被 认为 是 最 早 的 记录 数据 和 分 析 数 
据 的 工具 ,是 旧 石 器 时 代 人 们 采用 在 树枝 或 者 骨头 上 和 刻 
下 凹 痕 的 方法 来 记录 日 常 的 交易 活动 或 物品 供应 。 


1991 年 ,计算 机 科学 家 蒂 姆 。 伯 纳 斯 ， 李 宣告 了 我 
们 今天 所 熟知 的 万 维 网 的 诞生 。 在 一 个 网 站 上 ,他 制定 | 
了 世界 网 络 的 协议 书 ,使 互联 网 的 数据 联通 起 来 ,让 任 
何人 可 以 在 任何 地 方 进行 通信 。 互 联网 时 代 的 开启 , 带 
动 了 各 行 各 业 的 网 络 化 发 展 。 人 、 物 、 机 器 等 都 可 以 通过 一 个 终端 接 人 这 个 不 受 时 间 空间 
限制 的 虚拟 网 络 中 。 在 商业 生活、 生产、 农业 、 医 疗 、 金 融 等 领域 网 络 化 的 过 程 中 , 带 来 了 以 
几何 倍数 增长 的 数据 量 。 

2004 年 ,Facebook( 脸 书 ) Twitter ,Instagram 等 社交 网 络 的 相继 问世 迎 来 了 开放 共享 
的 Web 2.0 时代 。 网 络 平台 不 再 是 自 上 而 下 地 由 少数 资源 所 有 者 控制 ,而 是 自 下 而 上 地 由 
广大 用 户 的 智慧 和 力量 主导 。 在 Web 2.0 模式 下 ,网 络 用 户 出 于 对 某 个 或 某 些 问 题 的 共同 
兴趣 而 聚集 ,这 促使 他 们 主动 积极 地 参与 问题 讨论 和 信息 分 享 。 全 球 数据 量 预测 如 图 1-3 
所 示 。 

根据 知名 市 场 研究 机 构 IDC(International Data Corporation ,国际 数据 公司 ) 的 研究 报 
告 表 明 ,2011 年 全 球 数 据 总 量 已 经 达到 1. 8ZB, 未 来 全 球 数 据 总 量 年 增长 率 将 维持 在 50% 
左右 ,到 2020 年 ,全 球 数据 总 量 将 达到 40ZB, 如 图 1-3 所 示 。 


1.1.2 数据 存储 


人 们 在 生产 生活 过 程 中 所 创造 的 各 种 数字 、 图 像 文字、 记录 等 需要 被 采集 并 保存 下 来 ， 
才能 够 形成 数据 。 一 个 坚持 30 年 ,每 天 走 一 万 步 的 人 ,他 的 个 人 运动 数据 和 位 置 数据 ,在 微 
信和 运动 或 计 步 App 等 出 现 后 ,同样 的 行为 才 被 采集 并 存储 成 为 数据 。 

亚历山大 图 书馆 (公元 前 300 年 一 公元 48 年 ) 可 能 是 古代 最 大 的 数据 储存 地 了 ,这 里 


图 1-2 伊 尚 戈 骨头 


@ 重 小 峰 ,慈祥 . 大 数据 管理 : 概念 .技术 与 挑战 [J]. 计算 机 研究 与 发 展 ,.2013 ,50(1): 146-169. 
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50 万 卷 的 藏书 几乎 涵盖 了 当时 人 们 学 习 的 各 个 领域 。 

1928 年 ,工程师 波 弗 劳 姆 (Fritz Pfleumer) 发 明了 一 种 用 磁带 来 存储 信息 的 方法 。 他 发 
明 的 这 个 原理 今天 依然 在 使 用 , 绝 大 部 分 的 数据 就 是 存储 在 有 磁性 介质 的 计算 机 硬盘 上 。 

1965 年 ,英特尔 (Intel) 创 始 人 之 一 戈 登 。 摩尔 (Gordon Moore) 提 出 了 摩尔 定律 ,揭示 
了 信息 技术 进步 的 速度 。 其 内 容 为 : 当 价 格 不 变 时 ,集成 电路 上 可 容纳 的 元 器 件 的 数目 , 约 
每 隔 18 一 24 个 月 便 会 增加 一 倍 , 性 能 也 将 提升 一 倍 。 在 摩尔 定律 的 推动 下 ,计算 存储 和 传 
输 数 据 的 能 力 在 以 指数 速度 增长 ,每 GB 存储 器 的 价格 每 年 下 降 约 40%。 

1965 年 ,美国 政府 计划 在 世界 首 个 数据 中 心 的 磁盘 上 存储 7. 42 亿 的 纳税 申报 单 和 
1.75 亿 的 指纹 信息 。1967 年 ,IBM 公司 推出 世界 上 第 一 张 * 软 盘 ", 是 最 早 的 可 移动 数据 存 
储 介质 。 

2010 年 印刷 版 (大 英 百科 全 书 》, 共 32 册 , 重 达 58. 5kg, 然 而 它 的 全 部 内 容 ,还 装 不 满 一 
个 4GB 的 UD 盘 。 

历史 的 进程 进一步 证 实 了 摩尔 定律 ,数据 存储 能 力 的 指数 提升 如 图 1-4 所 示 。 
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图 1-4 数据 存储 能 力 的 提升 
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1.1.3 数据 计算 


数据 分 析 就 是 对 数据 进行 分 析 并 得 出 有 用 的 结论 。 首 先 不 一 定 使 用 统计 分 析 的 方法 ; 
其 次 ,不 一 定 非 要 处 理 大 量 的 数据 ,也 不 一 定 要 用 计算 机 ; 再 次 ,数据 分 析 自 古 就 有 。 百 度 
百科 对 于 数据 分 析 的 片面 认识 反映 了 国内 人 们 对 于 数据 分 析 认 识 的 模糊 ,也 反映 了 商业 利 
益 对 于 正常 观念 的 扭曲 。 

数据 分 析 早 在 两 千 多 年 前 就 在 使 用 。 在 战国 时 期 的 孙 庞 斗智 中 , 孙 爱 设计 蒙骗 庞 涓 , 孙 
爱 命 令 部 队 , 每 日 大 幅 减少 炉灶 的 数量 。 庞 涓 通过 观察 孙 爱 军队 的 炉灶 数量 逐日 大 量 减少 ， 
分 析 得 出 孙 腔 军队 大 量 逃 散 的 结论 ,最 终 上 当 战 败 。 这 就 是 数据 分 析 。 

在 辽 沈 战役 中 ,林彪 在 诸多 战报 中 发 现 , 在 胡 家 窜 棚 附近 缴获 的 短 枪 与 长 枪 的 比例 比 其 
他 战斗 中 的 高 ,那里 缴获 和 击毁 的 小 车 与 大 车 的 比例 比 其 他 战斗 中 的 高 ,在 那里 俘虏 和 击 比 
的 军官 与 士兵 的 比例 比 其 他 战斗 中 的 高 。 他 就 断定 ,敌人 的 指挥 所 就 在 这 里 。 果 不 其 然 , 敌 
军 司令 廖 耀 湘 在 胡 家 窜 棚 附近 被 逮 个 正 着 。 这 也 是 数据 分 析 。 

数据 分 析 发 展 自古 到 今 ,已 经 涵盖 了 最 朴素 的 数据 分 析 , 也 涵盖 了 数据 统计 、 数 据 挖掘 
和 大 数据 处 理 的 所 有 内 容 。 这 两 个 案例 都 说 明了 数据 分 析 古 已 有 之 , 且 数 据 分 析 不 一 定 要 
有 海量 数据 ,也 不 一 定 要 用 复杂 度 统计 分 析 方 法 ,只 要 统计 数据 分 类 (统计 口径 ) 正确; 同时 
还 说 明了 数据 分 析 极 其 重要 ,更 说 明了 数据 意识 和 素质 的 重要 。 

当 各 类 数据 能 够 被 采集 并 得 以 保存 时 ,提升 计算 和 分 析 数 据 的 能 力 ,成 为 实现 数据 价值 
的 必要 手段 。 

安 提 凯 希拉 (Antikythera) 机 器 ,是 最 早 被 发 现 的 机 械 计算 机 0, 也 代表 了 数据 分 析 能 力 
从 人 工 计算 向 机 械 计算 的 提升 。 

1663 年 ,约翰 葛 兰 特 (John Graunt) 在 伦敦 用 记录 下 的 当时 肆虐 欧洲 的 黑 死 病死 亡 
人 数 信息 ,建立 起 了 早期 预警 系统 的 理论 ,是 第 一 次 有 记录 的 统计 数据 分 析 实 验 。1865 年 ， 
银行 家 亨利 ， 福 尼斯 (Henry Furnese) 用 结构 化 的 方式 收集 和 分 析 有 关 竞 争 对 手 的 商业 活 
动 来 取得 竞争 优势 ,这 被 认为 是 第 一 次 将 数据 分 析 用 于 商业 目的 。 

1881 年 ,美国 人 口 普查 局 聘用 了 一 位 年 轻 的 工程 师 赫 尔 曼 ， 何 乐 礼 (Herman 
Hollerith) ,他 发 明了 著名 的 打 孔 卡片 制 表 机 :被 认为 是 现代 计算 机 的 雏形 ,将 原本 预计 需要 
花费 10 年 时 间 去 分 析 的 1880 年 收集 到 的 人 口 普 查 数据 工作 缩短 为 三 个 月 ,数据 处 理 速度 
提升 了 近 40 倍 。 

1989 年 ,美国 计算 机 协会 (Association of Computing Machinery, ACM) 数 据 挖掘 机 知 
识 发 现 委 员 会 (Special Interest Group on Knowledge Discovery and Data Mining， 
SIGKDD) 主 办 了 第 一 届 数 据 挖掘 学 术 年 会 。 基 于 数据 的 采集 、 分 类 、 估 值 . 语 言 ` 相 关 性 分 
组 或 关联 规则 、 上 聚集 、 描 述 和 可 视 化 等 分 析 方 法 开始 深入 到 人 们 生活 的 方方面面 。 

2004 年 ,谷歌 公开 的 MapReduce 分 布 式 并 行 计算 技术 ,是 新 型 分 布 式 计算 技术 的 代 
表 。 一 个 MapReduce 系统 由 廉价 的 通用 服务 器 构成 ,通过 添加 服务 器 节点 可 线性 扩展 系统 
的 总 处 理 能 力 (Scale Out) ,在 成 本 和 可 扩展 性 上 都 有 巨大 的 优势 。 

2005 年 ,Hadoop 诞生 , 它 是 专门 为 存储 及 分 析 大 数据 的 开源 框架 。 它 能 够 灵活 管理 人 





@ Antikythera mechanism[ OL]. Wikipedia,https://en. wikipedia. org/wiki/Antikythera_mechanism. 


们 不 断 产 生 和 采集 的 非 结构 化 数据 ,例如 语音 、 视 频 、 文 档 等 。 以 Hadoop 为 代表 的 分 布 式 
存储 和 计算 技术 迅猛 发 展 , 极 大 地 提升 了 互联 网 企业 数据 管理 能 力 ,互联 网 企业 对 “数据 废 
气 ” 的 挖掘 利用 大 获 成 功 。 

2007 年 《 连 线 》(Wired ) 杂 志 在 文章 (理论 的 终结 : 数据 洪流 让 科学 方法 过 时 ) 中 将 “大 
数据 ”的 概念 引进 了 大 众 的 视野 了。 

回顾 数据 的 起 源 和 发 展 ,可 以 清晰 地 看 到 今天 的 大 数据 是 从 最 朴素 的 数据 分 析 、 数 据 统 
计 和 数据 挖掘 一 步 步 走 过 来 的 ,数据 分 析 为 社会 带 来 的 经 济 价值 越 来 越 高 。 今 天 的 大 数据 
也 好 ,数据 挖掘 也 轩 ,都 是 在 做 数据 分 析 这 件 事 ,只 不 过 是 数据 的 体 量 在 提高 ,数据 的 复杂 性 
在 提高 ,数据 处 理 的 能 力 在 提高 以 及 数据 处 理 的 结果 更 具有 创造 性 。 

从 最 朴素 的 数据 分 析 到 大 数据 处 理 , 运 用 数据 的 思路 与 逻辑 是 一 致 的 。 所 有 的 数据 分 
析 无 非 是 在 寻找 : 什么 是 我 要 找 的 数据 ,我 要 找 的 数据 在 哪里 能 找到 ,最 大 (小 ) 的 数 是 多 
少 ,最 大 (小 ) 的 数据 在 哪里 ,最 大 (小 ?的 可 能 是 多 少 , 最 大 (小 ?的 可 能 在 哪里 ,哪些 因素 最 相 
关 , 相 关 性 多 大 ,从 大 到 小 的 排序 ,按照 时 间或 位 置 排 列 的 升降 状态 等 。 数 据 分 析 的 思路 就 
是 搜索 .对 比 、 概 率 计算 、 相 关 性 分 析 、 分 类 排序、 预测 等 ,最 后 做 出 的 结果 就 是 预测 . 聚 类 与 
排序 。 


1.2 初 识 大 数据 


在 人 类 社会 发 展 的 历史 长 河中 ,经 济 发 展 往往 伴随 着 技术 革命 。2013 年 称 为 "大 数据 
元 年 "。 目 前 ,几乎 所 有 世界 级 的 互联 网 企业 ,都 将 业务 触角 延伸 至 大 数据 产业 ; 无 论 社交 
平台 逐鹿 、 电 商 价格 大 战 还 是 门户 网 站 竞争 ,都 有 它 的 影子 。 

大 数据 无 处 不 在 ,大 数据 应 用 影响 到 了 人 们 的 工作 、 生 活 和 学 习 , 并 将 继续 施加 更 大 的 
影响 。 


1.2.1 大 数据 的 定义 


在 计算 机 科学 中 ,数据 是 指 所 有 能 输入 到 计算 机 并 被 计算 机 程序 处 理 的 符号 的 介质 的 
总 称 ,是 用 于 输入 电子 计算 机 进行 处 理 , 具 有 一 定 意 义 的 数字 、 字 母 . 符 号 和 模拟 量 等 的 
通称 @。 

数据 的 基本 计量 单位 是 Byte, 按 照 1024(2”) 进 率 , 依 次 递增 为 B、KB、MB、GB、TB、 
PB.EB.ZB.YB.DB.NB, 

1B=8b 

1KB=1024B 

1MB=1024KB 

1GB=1024MB 

1TB=1024GB 

1PB=1024TB 


@ The End of Theory: The Data Deluge Makes the Scientific Method ObsoleteLOL]. 2013, http://archive. wired. 
com/science/ discoveries/magazine/16-07/pb_theory/. 


@ 王 珊 , 萨 师 迷 . 数据 库 系统 概率 (第 5 版 )LD]. 北京 : 高 等 教育 出 版 社 ,2014. 
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1EB 王 1024PB 

1ZB 王 1024EB 

1YB 王 1024ZB 

“大 数据 ?一 词 本 身 就 是 一 个 比较 抽象 的 概念 , 单 从 字面 来 看 “大 ”体现 了 研究 或 应 用 的 
量 级 规模 是 庞大 的 ， 数 据 ? 则 说 明了 研究 或 应 用 对 象 的 实质 。 但 是 什么 样 的 数据 量 级 才 可 
以 称 之 为 "大 ” 呢 ? 

传统 数据 库 有 效 工作 的 数据 规模 一 般 为 10 一 100TB, 因 此 麦肯锡 和 IDC 公司 对 此 都 有 
过 相近 的 说 法 ,10 一 100TB 通常 成 为 大 数据 的 门槛 。 所 谓 大 数据 从 数据 规模 上 看 ,大 概 是 
指 100TB 以 上 的 数据 体 量 ,100TB 相当 于 现在 100 部 最 新 笔记 本 (1TB 硬盘 ) 的 最 大 存储 总 
量 。 但 是 ,数据 计算 的 难度 与 速度 还 涉及 数据 的 类 型 结构 与 存储 的 复杂 性 ,因此 以 100TB 
为 基准 来 定义 大 数据 的 说 法 未 必 科 学 。 

大 数据 和 互联 网 都 是 一 种 通用 目的 技术 (General Purpose Technology), 随 着 技术 和 应 
用 的 发 展 ,其 概念 也 在 不 断 地 演进 。 尽 管 有 很 多 研究 机 构 和 学 者 给 出 的 定义 被 广泛 认可 ,但 
是 却 没有 公认 的 、 唯 一 的 准确 定义 。 

维克托 。 迈 尔 。 舍 恩 伯 格 与 肯 尼 斯 。 库 克 耶 在 他 们 合 著 的 《大 数据 时 代 )》 一 书 中 指出 ， 
大 数据 是 指 不 用 随机 分 析 法 这 样 的 捷径 ,而 采用 所 有 数据 的 方法 0。 

大 数据 : 样本 三 全 体 。 

因此 ,所 谓 的 “大 ”其 实 也 包含 着 “全 ”的 含义 ,不 是 相对 的 量 级 ,而 是 绝对 的 范围 。 

对 于 大 数据 这 一 概念 比较 被 认可 的 定义 还 有 以 下 几 种 。 

(1) 大 数据 ,或 称 巨 量 数据 、 海 量 数据 、 大 资料 , 指 的 是 所 涉及 的 数据 量规 模 巨大 到 无 法 
通过 人 工 在 合理 时 间 内 达到 截取 、 管 理 、 处 理 并 整理 成 为 人 类 所 能 解读 的 信息 。( 维 基 
百科 ®) 

(2) 一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 析 方面 大 大 超出 了 传统 数据 库 软 件 工具 能 力 
范围 的 数据 集合 ,具有 海量 的 数据 规模 (Volume) .快速 的 数据 流转 (Velocity) .多样 的 数据 
类 型 (Variety) 和 价值 密度 低 (Value)4 大 特征 。( 麦 肯 锡 全 球 研究 所 ) 

(3) 大 数据 是 数据 集 或 信息 , 它 的 规模 、 发 布 , 位 置 在 不 同 的 信息 孤岛 上 ,或 它 的 时 间 线 
要 求 客 户 部 署 新 的 架构 来 捕捉 、 存 储 、 整 合 .管理 和 分 析 这 些 信息 以 便 实现 企业 价值 。 
(EMC 公司 ) 

(4) 大 数据 是 需要 新 处 理 模 式 才 能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 
海量 、 高 增长 率 和 多 样 化 的 信息 资产 ,这 些 信息 资产 需要 新 型 的 处 理 方式 来 强化 决策 制定 、 
洞察 发 现 和 处 理 优化 。( 研 究 机 构 Gartner ,2012) 

(5) 大 数据 是 以 容量 大 、 类 型 多 、 存 取 速 度 快 、 应 用 价值 高 为 主要 特征 的 数据 集合 , 正 快 
速 发 展 为 对 数量 巨大 、 来 源 分 散 、 格 式 多 样 的 数据 进行 采集 、 存 储 和 关联 分 析 , 从 中 发 现 新 知 
识 ,创造 新 价值 .提升 新 能 力 的 新 一 代 信息 技术 和 服务 业态 。( 中 华人 民 共 和 国 国务 院 ,《 促 
进 大 数据 发 展 行动 纲要 》,2015) 


@ [ 英 ] 维 克 托 。 迈 尔 。 舍 恩 伯 格 , 表 尼 斯 " 库 克 耶 . 大 数据 时 代 LMJ. 盛 阳 燕 , 周 涛 , 译 . 浙江 : 浙江 人 民 出 版 社 ， 
2013. 
@® Big data [OL]. Wikipedia, https://en. wikipedia. org/wiki/Big_data. 


这 些 定义 都 强调 的 是 大 数据 的 海量 数据 规模 、 多 样 数据 类 型 和 新 型 处 理 技术 的 特点 。 
Gartner 将 大 数据 定义 为 一 种 信息 资产 , 即 数据 的 价值 不 仅 体现 在 数据 本 身 , 更 可 以 作为 市 
场 经 济 中 的 生产 要 素 , 用 于 交易 并 创造 出 更 大 的 价值 。 我 国 的 《促进 大 数据 发 展 行动 纲要 》 
中 ,将 大 数据 作为 新 一 代 信息 技术 和 服务 业态 ,强调 了 大 数据 具有 的 创新 性 和 服务 性 ,是 信 
息 革 命 、 互 联网 十 时 代 引 领 的 新 型 应 用 、 新 型 服务 .新 型 行业 。 

大 数据 从 哪里 来 ? 我 们 可 以 把 它 简单 地 概括 为 以 下 三 大 类 。 

第 一 ,流动 数据 。 物 质 世 界 本 身 数字 化 产生 的 大 数据 。 例 如 一 些 医疗 服务 类 网 站 ,将 医 
生 信 息 .门诊 信息 等 现实 事物 数字 化 ,形成 了 大 量 网 络 数据 ; 物 联网 上 的 人 、 机 、 物 交互 产生 
了 实时 的 行为 轨迹 和 状态 数据 。 

2010 年 ,美国 有 1.5 亿 慢 性 病 患 者 ,如 糖尿 病 、 充 血性 心脏 衰竭 、 高 血压 患者 ,他 们 的 医 
疗 费用 占 到 了 医疗 卫生 系统 医疗 成 本 的 80%。 远 程 病人 监护 系统 对 治疗 慢性 病 患者 是 非 
常 有 用 的 。 远 程 病人 监护 系统 包括 家 用 心脏 监测 设备 .血糖 仪 ,甚至 还 包括 芯片 药片 ,芯片 
药片 被 患者 摄 入 后 ,实时 传送 数据 到 电子 病历 数据 库 。 

第 二 ,社交 数据 。 用 户 在 互联 网 交流 过 程 中 不 断 产生 各 式 各 样 的 行为 大 数据 ,这 类 数据 
在 社交 互动 中 越 来 越 具有 吸引 力 , 尤 其 是 它 的 营销 功能 。 但 是 这 些 数 据 通常 是 在 非 结构 化 
或 半 结 构 化 形式 ,对 于 一 个 公司 当 使 用 和 分 析 这 些 数据 信息 的 时 候 ,不 仅 要 考虑 数据 的 规 
模 , 大 数据 应 用 也 是 一 个 独特 的 挑战 。 大 量 移动 电子 终端 设备 的 出 现 , 更 加 快 了 互联 网 信息 
制造 的 速度 。 

2011 年 8 月 23 日 ,美国 弗吉尼亚 州 发 生 5. 9 级 地 震 ,纽约 市 民 首 先 在 Twitter 上 看 到 
地 震 信 息 之 后 才 感 到 震 区 传 来 的 真实 震感 。 这 意味 着 ,社交 网 络 不 但 是 提升 人 类 信息 传播 
速度 的 工具 ,也 是 用 户 随 时 随地 记录 行为 .思想 和 情绪 的 平台 ,而 这 种 数字 化 的 记录 就 是 制 
造 数据 的 过 程 。 

第 三 ,公开 来 源 。 庞 大 的 数据 可 以 通过 打开 数据 源 , 像 美国 政府 的 数据 ,CIA 世界 各 国 
概况 或 者 欧盟 开放 数据 门户 等 获得 。 各 种 数据 的 积累 .沉淀 及 保存 产生 大 数据 。 随 着 科技 
进步 ,时 代 变 化 ,高 性 能 存储 设备 日 益 发 展 普及 ,使 越 来 越 多 的 数据 得 以 持续 保存 ,形成 越发 
庞大 的 数据 集 。 

国家 邮政 局 公布 2016 年 10 月 邮政 行业 运行 情况 数据 : 全 行业 业务 收入 完成 483.5 亿 
元 ,同比 增长 38.4%; 业务 总 量 完成 695. 5 亿 元 ,同比 增长 48.4%。 其 中 ,快递 业务 量 完 
30.3 亿 件 ,同比 增长 55. 9%; 业务 收入 完成 376.2 亿 元 ,同比 增长 49. 1%。 


1.2.2 大 数据 的 特征 


基于 全 体 样本 的 分 析 是 “大 数据 "定义 中 对 于 研究 对 象 进行 界定 的 核心 内 涵 , 所 体现 出 
的 特征 也 必然 围绕 着 全 体 样本 集合 的 特点 。 

在 2001 年 的 研究 报告 和 相关 文献 中 ,META Group( 现 在 的 Gartner) 的 分 析 师 Doug 
Laney 将 数据 增长 的 挑战 和 机 遇 定 义 成 三 维 方式 , 即 数据 总 量 Volume、 处 理 速度 Velocity 
和 数据 类 型 Variety, 也 就 是 最 早 用 来 描述 大 数据 的 “3V” 模 型 。 

随 着 资讯 科技 不 断 地 往 前 推进 ,数据 量 的 复杂 程度 愈 来 愈 高 ,3V 已 经 不 足以 形容 新 时 
代 的 大 数据 。2012 年 ,包括 IBM、Gartner、IDC 在 内 的 科技 厂商 和 研究 机 构 等 纷纷 提出 新 
的 论述 ,在 3V 的 基础 上 增加 了 对 数据 “价值 (Value)” 的 认识 ,发 展 成 为 4V 模型 。 阿 姆 斯 特 








大 数 燃 : 引爆 新 的 价值 点 


丹 大 学 的 Yuri Demchenko 等 人 提出 大 数据 还 应 具有 可 信 性 、 真 伪 性 、 来 源 和 信誉 有 效 性 
和 可 审计 性 的 特点 , 即 真 实 性 (Veracity) ,形成 了 5V 的 框架 ,如 图 1-5 所 示 。 
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图 1-5 大 数据 5V 特征 


第 一 ,数据 体 量 巨大 (Volume) 。 指 收集 和 分 析 的 数据 量 非常 大 ,从 TB 级 别 跃 升 到 PB 
级 别 ,但 在 实际 应 用 中 ,很 多 企业 用 户 把 多 个 数据 集 放 在 一 起 ,已 经 形成 了 PB 级 的 数据 量 。 

2006 年 ,个 人 用 户 每 年 产生 的 数据 才刚 刚 迈 入 TB 时 代 , 全 球 一 共 新 产生 了 约 180EB 
的 数据 ; 在 2011 年 ,这 个 数字 达到 了 1. 8ZB。2013 年 ,中 国产 生 的 数据 总 量 超过 0.8ZB ,是 
2012 年 的 两 倍 , 相 当 于 2009 年 全 球 的 数据 总 量 。 

第 二 ,处 理 速 度 快 (Velocity)。 大 数据 需要 对 数据 进行 近 实 时 的 分 析 。 以 视频 为 例 , 连 
续 不 间断 监控 过 程 中 ,可 能 有 用 的 数据 仅 有 一 两 秒 ,这 一 点 和 传统 的 数据 挖掘 技术 有 着 本 质 
的 不 同 。 

每 秒 钟 淘宝 商城 就 会 产生 大 约 178 笔 订单 ; 每 分 钟 人 们 可 以 在 YouTube 上 传 20 个 小 
时 的 视频 。Facebook 位 于 瑞典 北方 的 “资料 库 ” 一 一 Node Pole, 有 6 个 足球 场 那 么 大 ,每 天 
要 处 理 全 球 用 户 45 亿 个 赞 、3.5 亿 张 照片 和 100 亿 条 信息 。 

第 三 ,数据 多 样 性 (Variety) 。 大 数据 来 自 多 种 数据 源 ,数据 种 类 和 格式 日 渐 丰 富 , 包 含 
结构 化 、 半 结构 化 和 非 结 构 化 等 多 种 数据 形式 ,如 网 络 日 志 、 视 频 、 图 片 、 地 理 位 置信 息 等 。 
非 结构 化 数据 增长 率 达 80% ,而 传统 的 数据 样式 主要 以 数据 库 和 XML 为 主 。 

多 样 的 数据 类 型 涉及 数字 、 文 字 、 图 片 、 语 音 、 视 频 、 地 理 位 置 、 网 络 日 志 信 息 等 ,从 数据 
结构 来 看 ,可 分 为 非 结 构 化 数据 、 半 结构 化 数据 和 结构 化 数据 .从 数据 存储 方案 的 角度 还 可 
以 分 为 分 布 式 存储 和 集中 式 存储 ,从 数据 质量 来 看 ,数据 的 完整 性 .可 信 性 与 可 用 性 也 大 不 
相同 。 对 于 是 否 必须 采用 大 数据 运算 ,在 数据 规模 和 数据 复杂 性 之 间 存 在 一 定 的 取舍 关系 。 
一 般 来 说 ,分 布 式 存储 就 意味 着 很 大 的 数据 体 量 ,分 布 存 储 的 数据 就 需要 用 大 数据 技术 来 处 


理 了 ,传统 技术 已 经 无 法 使 用 。 大 数据 适合 于 处 理 分 布 式 存储 的 复杂 数据 。 

第 四 ,价值 密度 低 (Value) 。 要 挖掘 大 数据 的 价值 就 需要 在 几 百 万 条 数据 中 找到 真正 有 
借鉴 意义 的 几 条 ,例如 每 天 24 小 时 的 视频 数据 中 ,针对 某 一 研究 或 分 析 目 标 有 价值 的 仅 有 
几 秒 钟 。 通 过 分 析 数 据 得 出 如 何 抓 住 这 条 数据 ,就 能 够 把 握 机 遇 并 收获 巨大 的 经 济 或 社会 
价值 。 

第 五 ,数据 真实 性 (Veracity)。 大 数据 中 的 内 容 是 从 真实 世界 采集 得 到 的 ,在 录入 、 生 
成 .采集 数据 的 过 程 中 存在 因为 客观 或 人 为 因素 产生 偏差 的 情况 。 数 据 的 真实 性 即 代表 了 
数据 的 质量 ,将 直接 影响 分 析 和 预测 的 准确 性 、 真 实 性 和 有 效 性 。 大 数据 就 是 从 庞大 的 网 络 
数据 中 提取 出 能 够 解释 和 预测 现实 事件 的 过 程 。 

大 数据 的 产生 和 发 展 ,是 信息 技术 领域 不 同时 期 的 多 个 进步 交互 作用 的 结果 。 在 未 来 ， 
智能 数据 可 以 帮助 我 们 了 解 一 个 智能 系统 每 时 每 刻 发 生 了 什么 ,更 能 够 告诉 人 们 为 什么 会 
发 生 。 其 至 还 可 以 告诉 人 们 接 下 来 会 发 生 什么 ,以 及 我 们 应 该 如 何 应 对 ,智能 数据 将 改变 人 
们 的 生活 方式 和 思维 模式 ,提升 国家 或 政府 的 服务 能 力 ,创新 企业 的 商业 模式 。 


1.2.3 大 数据 与 传统 数据 分 析 的 区 别 


大 数据 分 析 是 指 对 大 量 结构 化 和 非 结构 化 的 数据 进行 分 析 处 理 , 从 中 获得 新 的 价值 , 具 
有 数据 量 大 、 数 据 类 型 多 、 处 理 速 度 快 等 特点 。 与 传统 数据 分 析 相 比 ,大 数据 分 析 的 特点 如 
表 1-1 所 示 。 





表 1-1 大 数据 分 析 与 传统 数据 分 析 的 区 别 











大 数据 分 析 传统 数据 分 析 
数据 量 TB、PB 以 上 MB 至 GB 
数据 类 型 种 类 繁多 ,包括 非 结构 化 、 非 线性 数据 种 类 单一 ,以 结构 化 数据 为 主 
现 有 数据 才能 确定 模式 , 且 模 式 随 着 数据 的 


先 有 模式 , 才 会 产生 数据 


增长 不 断 演化 

和 
处 理 能 力 | 可 对 收集 到 的 所 有 海量 数据 进行 分 析 ee 
处 理 范围 ”| 将 不 同 领域 的 数据 组 合 后 进行 分 析 单一 领域 内 的 数据 分 析 
数据 源 与 分 析 结果 间 不 仅 是 因果 关系 * 还 可 
处 理 结果 ”| 基于 有 相关 关系 的 数据 源 完成 分 析 预 测 ; 进 
行 机 器 学 习 等 











关注 数据 源 与 分 析 结 果 间 的 因果 关系 ; 
对 数据 进行 查询 等 











数据 无 处 不 在 ,大 数据 分 析 不 仅 是 对 因果 关系 的 研究 ,在 智慧 城市 的 建设 中 ,还 注重 对 
相关 数据 的 挖掘 以 获得 对 未 来 合理 的 预测 分 析 。 对 农业 的 大 数据 处 理 , 能 够 预测 可 能 的 病 
虫 危害 或 天 气 变 化 ,从 而 提前 做 好 防护 和 灌溉 规划 ; 对 交通 的 大 数据 处 理 , 能 够 预测 道路 拥 
堵 的 状况 以 便 提 前 做 好 朴 通 准备 和 出 行 计划 ;， 对 医疗 的 大 数据 处 理 , 可 以 预测 个 人 身体 健 
康 状况 发 展 及 各 类 疾病 的 发 生 率 或 者 就 医 资源 的 需求 ,以 便 提前 做 好 个 人 的 健康 管理 和 医 
疗 资源 的 调度 。 如 果 能 预知 下 一 秒 可 能 发 生 什么 ,那么 就 能 在 当下 做 出 最 有 利于 下 一 秒 的 
决策 ,始终 赢 在 起 跑 线 前 一 秒 。 

认识 大 数据 ,不 仅 是 要 认识 数据 本 身 , 还 需要 处 理 和 分 析 数 据 的 模型 .技术 .手段 等 。 大 
数据 不 是 一 个 简单 的 实物 名 词 ,而 是 围绕 全 样本 数据 的 一 系列 计算 、 分 析 , 以 及 获得 的 有 效 
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信息 或 智能 预测 。 通 过 数据 的 采集 、 分 析 模 型 的 建立 、 计 算 工具 的 应 用 ,最 终 实 现 从 数据 到 
具有 商业 价值 的 信息 资产 的 转变 ,这 就 是 大 数据 技术 。 


1.3 大 数据 应 用 的 演进 趋势 


大 数据 行业 应 用 的 发 展 , 是 沿袭 数据 分 析 应 用 而 来 的 渐变 的 过 程 。 观 察 大 数据 应 用 的 
发 展演 变 , 可 以 从 技术 强度 .数据 广度 和 应 用 深度 三 个 视角 切入 。 
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图 1-6 大 数据 应 用 的 演进 趋势 


1. 可 视 化 技术 让 数据 平民 化 

大 数据 是 一 个 由 多 维度 、 不 断 更 新 充实 的 数据 群 组 成 的 ,大 数据 的 应 用 是 需要 从 无 规 
律 .无 直接 因果 的 数据 群 中 ,根据 需要 或 目标 获得 研究 成 果 。 数 据 的 "可视化 " 则 是 大 数据 的 
展示 手段 。 

最 近 几 年 ,“ 大 数据 "概念 深入 人 心 。 民 众 看 到 的 大 数据 更 多 的 是 以 可 视 化 的 方式 体现 
的 。 可 视 化 极 大 地 拉 近 了 大 数据 和 普通 民众 的 距离 ,即使 对 IT 技术 不 了 解 的 普通 民众 和 
非 专业 技术 的 常规 决策 者 也 能 够 很 好 地 理解 大 数据 及 其 分 析 的 效果 和 价值 ,使 得 大 数据 可 
以 从 国 计 和 民生 两 方面 充分 发 挥 其 价值 。 

可 视 化 是 通过 把 复杂 的 数据 转化 为 可 以 交互 的 图 形 ,帮助 用 户 更 好 地 理解 分 析 数 据 对 
象 发现、 洞察 内 在 规律 。 数 据 是 人 类 对 客观 事物 的 抽象 。 人 类 对 数据 的 理解 和 掌握 是 需要 
经 过 学 习 训练 才能 达到 的 。 理 解 更 为 复杂 的 数据 ,必须 越过 更 高 的 认 知 壁 又 ,才能 对 客观 数 
据 对 象 建立 相应 的 心理 图 像 ,完成 认 知 理解 过 程 。 好 的 可 视 化 能 够 极 大 地 降低 认 知 壁垒 ,使 
复杂 未 知 数据 的 交互 探索 变 得 可 行 。 

可 视 化 技术 的 进步 和 广泛 应 用 对 于 大 数据 走向 平民 化 的 意义 是 双向 的 。 一 方面 ,可 视 
化 作为 人 和 数据 之 间 的 界面 ,结合 其 他 数据 分 析 处 理 技术 ,为 广大 使 用 者 提供 了 强大 的 理 
解 、 分 析 数 据 的 能 力 。 可 视 化 使 得 大 数据 能 够 为 更 多 人 理解 、 使 用 ,使 得 大 数据 的 使 用 者 从 


少数 专家 扩展 到 更 广泛 的 民众 。 另 一 方面 ,可 视 化 也 为 民众 提供 了 方便 的 工具 ,可 以 主动 分 
析 处 理 和 个 人 工作 生活 \ 环 境 有 关 的 数据 。 民 众 服务 的 可 视 化 技术 ,也 将 进一步 和 个 人 使 
用 的 移动 通信 设备 (如 手机 ) 相 结合 。 

2. 大 数据 安全 与 隐私 令 人 忧虑 

数据 的 增 量 呈 指数 增长 ,相应 的 大 数据 的 安全 问题 也 十 分 严峻 。 当 大 数据 技术 .系统 和 
应 用 聚集 了 大 量 有 价值 的 信息 的 时 候 , 必 将 成 为 被 攻击 的 目标 。 

大 数据 的 过 度 滥 用 所 带 来 的 问题 和 副作用 ,最 典型 的 就 是 个 人 隐私 泄露 。 在 传统 采集 
分 析 模 式 下 ,很 多 隐私 在 大 数据 分 析 能 力 下 变 成 了 “裸奔 "。 类 似 的 问题 还 包括 ,大 数据 分 析 
能 力 带 来 的 商业 秘密 泄露 和 国家 机 密 泄露 。 

心理 和 意识 上 的 安全 问题 ,包括 两 个 极端 : 一 是 忽视 安全 问题 的 盲目 乐观 , 另 一 个 是 过 
度 担忧 所 带 来 的 对 大 数据 应 用 发 展 的 童 肘 。 比 如 ,大 数据 分 析 对 隐私 保护 的 副作用 ,促使 人 
们 必须 对 隐私 保护 的 接受 程度 有 一 个 新 的 认识 和 调整 。 

大 数据 受到 的 威胁 、 大 数据 的 过 度 滥用 所 带 来 的 副作用 、 对 大 数据 的 极端 心理 ,都 会 阻 
碍 和 破坏 大 数据 的 发 展 。 

3. 新 热点 融入 大 数据 多 样 化 处 理 模 式 

大 数据 的 处 理 模式 依然 多 样 化 。 大 数据 处 理 模 式 不 断 丰富 ,新 旧 手 段 不 断 融合 ,比如 ， 
流 数据 、 内 存 计 算 成 为 新 热点 。 内 存 计 算 继 续 成 为 提高 大 数据 处 理性 能 的 主要 手段 。 以 
Spark 为 代表 的 内 存 计算 逐步 走向 商用 ,并 与 Hadoop 融合 共存 。 与 传统 的 硬盘 处 理 方式 
相 比 ,内 存 计 算 技 术 在 性 能 上 有 了 数量 级 的 提升 。 批 处 理 计算 、 流 计算 、 交 互 查 询 计算 、 图 计 
算 等 多 种 计算 框架 使 数据 使 用 效率 大 大 提高 。 很 多 新 的 技术 热点 持续 地 融入 大 数据 的 多 样 
化 模式 中 ,目前 还 没有 一 个 统一 的 模式 。 

4. 大 数据 提升 社会 治理 和 民生 领域 应 用 

基于 大 数据 的 社会 治理 成 为 业界 关注 的 热点 ,涉及 智慧 城市 、 应 急 、 税 收 、 反 恺 、 农 业 等 
多 个 民生 领域 。 在 最 易 获 得 大 数据 应 用 成 果 的 互联 网 环境 之 后 ,大 数据 走 进 国计民生 成 为 

5. 深度 分 析 推动 大 数据 智能 应 用 

在 学 术 技术 方面 ,深度 分 析 会 继续 推动 整个 大 数据 智能 的 应 用 。 这 里 谈 到 的 智能 强调 
涉及 人 的 相关 能 力 的 延伸 ,比如 决策 预测 、 精 准 推介 等 ,涉及 人 的 思维 和 反射 的 延展 .人 的 能 
力 (智能 和 本 能 ) 的 延展 ,这 些 都 会 成 为 大 数据 分 析 、 机 器 学 习 、 深 度 学习 等 学 术 技术 发 展 的 
方向 。 

6. 数据 权 属 与 数据 主权 备 受 关注 

数据 成 为 重要 的 战略 资源 。 人 口红 利 `. 地 大 物 博 、 经 济 实力 、 文 化 优势 等 都 纷纷 体现 为 
数据 资源 储备 和 数据 服务 影响 力 。 数 据 资源 化 价值 化 是 数据 权 属 问题 和 数据 主权 问题 的 

数据 权 属 与 数据 主权 被 高 度 关注 。 大 数据 问题 从 个 人 和 一 般 机 构 层 面 来 看 是 数据 权 属 
问题 ,从 国家 层面 来 看 是 数据 主权 问题 。 数 据 的 权 属 问题 并 不 是 传统 的 财产 权 、` 知 识 产权 等 
可 以 涵盖 的 。 数 据 成 为 国家 间 争 夺 的 资源 ,数据 主权 成 为 网 络 空间 主权 的 重要 形态 。 
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附 : 大 数据 年 代 记 


1980 年 ,未 来 学 家 阿尔 文 . 托 夫 勒 将 大 数据 称 作 “ 第 三 次 浪潮 的 华 彩 乐章 ”。 

2005 年 ,Hadoop 项 目 诞 生 , 从 技术 层面 上 搭建 了 一 个 使 对 结构 化 和 复杂 数据 快速 、 可 
靠 分 析 变 为 现实 的 平台 。 

2008 年 年 末 ,“ 大 数据 "得 到 部 分 美国 知名 计算 机 科学 研究 人 员 的 认可 ,业界 组 织 计 算 
社区 联盟 (Computing Community Consortium ) .发 表 了 一 份 有 影响 力 的 白皮书 4 大 数据 计 
算 : 在 商务 .科学 和 社会 领域 创建 革命 性 突破 》。 它 使 人 们 的 思维 不 仅 局 限于 数据 处 理 的 机 
器 ,并 提出 : 大 数据 真正 重要 的 是 新 用 途 和 新 见解 ,而 非 数据 本 身 。 此 组 织 可 以 说 是 最 早 提 
出 大 数据 概念 的 机 构 。 

2009 年 年 中 ,美国 政府 通过 启动 Data. gov 网 站 的 方式 进一步 打开 了 数据 的 大 门 ,这 个 
网 站 向 公众 提供 各 种 各 样 的 政府 数据 。 该 网 站 超过 4. 45 万 的 数据 集 被 用 于 保证 一 些 网 站 
和 智能 手机 应 用 程序 跟踪 从 航班 到 产品 召回 再 到 特定 区 域内 失业 率 的 信息 ,这 一 行动 激发 
了 从 肯尼亚 到 英国 范围 内 的 政府 们 相继 推出 类 似 举 措 。 

2009 年 ,欧洲 一 些 领先 的 研究 型 图 书馆 和 科技 信息 研究 机 构建 立 了 伙伴 关系 ,致力 于 
改善 在 互联 网 上 获取 科学 数据 的 简易 性 。 

2010 年 2 月 , 肯 尼 斯 。 库 克 尔 在 《经济 学 人 》 上 发 表 了 专题 报告 4 数据 ,无 所 不 在 的 数 
据 》。 报 告 中 提 到 :“ 世 界 上 有 着 无 法 想象 的 巨 量 数字 信息 ,并 以 极 快 的 速度 增长 。 从 经 济 
界 到 科学 界 ,从 政府 部 门 到 艺术 领域 ,很 多 方面 都 已 经 感受 到 了 这 种 巨 量 信息 的 影响 。" 库 克 
尔 也 因此 成 为 最 早 洞 见 大 数据 时 代 趋 势 的 数据 科学 家 之 一 。 

2011 年 2 月 ,IBM 的 沃 森 超 级 计算 机 每 秒 可 扫描 并 分 析 4TB( 约 两 亿 页 文字 量 ) 的 数据 
量 , 并 在 美国 著名 智力 竞赛 电视 节目 (危险 边缘 》(Jeopardy) 上 击败 两 名 人 类 选手 而 夺冠 。 
《纽约 时 报 ) 认 为 这 一 刻 为 一 个 “大 数据 计算 的 胜利 。” 

2011 年 5 月, 全球 知名 咨询 公司 麦肯锡 (McKinsey&Company) 全 球 研 究 院 (MGDJ) 发 布 
了 一 份 报告 一 一 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 新 领域 ), 从 此 大 数据 开始 备 受 关 
注 ,这 也 是 专业 机 构 第 一 次 全 方面 地 介绍 和 展望 大 数据 。 报 告 指出 ,大 数据 已 经 渗透 到 当今 
每 一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运用 ,预示 
着 新 一 波 生产 率 增长 和 消费 者 一 余 浪潮 的 到 来 。 报 告 还 提 到 ,“ 大 数据 ”" 源 于 数据 生产 和 收 
集 的 能 力 和 速度 的 大 幅 提 升 一 一 由 于 越 来 越 多 的 人 、 设 备 和 传感器 通过 数字 网 络 连 接 起 来 ， 
产生 ,传送 、 分 享 和 访问 数据 的 能 力也 得 到 彻底 变革 。 

2011 年 12 月 ,中 国 工业 和 信息 化 部 发 布 的 物 联 网 “十 二 五 ”规划 上 ,把 信息 处 理 技术 作 
为 4 项 关键 技术 创新 工程 之 一 被 提出 来 ,其 中 包括 海量 数据 存储 、 数 据 挖掘 、 图 像 视频 智能 
分 析 , 这 都 是 大 数据 的 重要 组 成 部 分 。 

2012 年 1 月 ,瑞士 达 沃 斯 召开 的 世界 经 济 论坛 上 ,大 数据 是 主题 之 一 ,会 上 发 布 的 报告 
《大 数据 ,大 影响 》(Big Data ，Big Impact) 宣 称 ,数据 已 经 成 为 一 种 新 的 经 济 资源 类 别 , 就 
像 货币 或 黄金 一 样 。 

2012 年 3 月 ,美国 奥巴马 政府 在 白宫 网 站 发 布 了 《大 数据 研究 和 发 展 倡议 》, 这 一 倡议 
标志 着 大 数据 已 经 成 为 重要 的 时 代 特 征 。 奥 巴 马 政府 宣布 两 亿美 元 投资 大 数据 领域 ,是 大 
数据 技术 从 商业 行为 上 升 到 国家 科技 战略 的 分 水 岭 。 奥 巴 马 政 府 将 数据 定义 为 “未 来 的 新 





石油 ”, 大 数据 技术 领域 的 竞争 , 事 关 国家 安全 和 未 来 。 国 家 层面 的 竞争 力 将 部 分 体现 为 一 
国 拥有 数据 的 规模 、 活 性 以 及 解释 .运用 的 能 力 ; 国家 数字 主权 体现 对 数据 的 占有 和 控制 。 
数字 主权 将 是 继 边 防 海防. 空 防 之 后 , 另 一 个 大 国 博弈 的 空间 。 

2012 年 4 月 19 日 ,美国 软件 公司 Splunk 在 纳 斯 达 克 成 功 上 市 ,成 为 第 一 家 上 市 的 大 
数据 处 理 公司 。Splunk 成 功 上 市 促进 了 资本 市 场 对 大 数据 的 关注 ,同时 也 促使 IT 厂商 加 
快 大 数据 布局 。 

2012 年 7 月 ,联合 国 在 纽约 发 布 了 一 份 关于 大 数据 政务 的 白皮书 ,总 结 了 各 国政 府 如 
何 利用 大 数据 更 好 地 服务 和 保护 人 民 。 这 份 白皮书 举例 说 明 在 一 个 数据 生态 系统 中 ,个 人 、 
公共 部 门 和 私人 部 门 各 自 的 角色 ` 动 机 和 需求 : 例如 ,通过 对 价格 关注 和 更 好 服务 的 渴望 ， 
个 人 提供 数据 和 众 包 信息 ,并 对 隐私 和 退出 权力 提出 需求 ; 公共 部 门 出 于 改善 服务 .提升 效 
益 的 目的 ,提供 了 诸如 统计 数据 .设备 信息 、 健 康 指标 ,及 税务 和 消费 信息 等 ,并 对 隐私 和 退 
出 权力 提出 需求 ; 私人 部 门 出 于 提升 客户 认 知 和 预测 趋势 的 目的 ,提供 汇总 数据 、 消 费 和 使 
用 信息 ,并 对 敏感 数据 所 有 权 和 商业 模式 更 加 关注 。 白 皮 书 还 指出 ,人 们 如 今 可 以 使 用 的 极 
大 丰富 的 数据 资源 ,包括 旧 数据 和 新 数据 ,来 对 社会 人 口 进行 前 所 未 有 的 实时 分 析 。 如 果 政 
府 能 合理 分 析 所 掌握 的 数据 资源 ,将 能 “与 数 俱 进 ”, 快 速 应 变 。 

2012 年 7 月 ,为 挖掘 大 数据 的 价值 ,阿里 巴巴 集团 在 管理 层 设立 “首席 数据 官 "一 职 , 负 
责 全 面 推进 “数据 分 享 平台 ”战略 ,并 推出 大 型 的 数据 分 享 平台 一 一 “ 聚 石塔 ”", 为 天 猫 、 淘 宝 
平台 上 的 电 商 及 电 商 服务 商 等 提供 数据 云 服务 。 随 后 ,阿里 巴巴 董事 局 主席 马云 在 2012 年 
网 商 大 会 上 发 表演 讲 , 称 从 2013 年 1 月 1 日 起 将 转型 重 塑 平台 金融 和 数据 三 大 业务 。 马 
云 强 调 :“ 假 如 我 们 有 一 个 数据 预报 台 ,就 像 为 企业 装 上 了 一 个 GPS 和 雷达 ,你 们 出 海 将 会 
更 有 把 握 ,” 因 此 ,阿里 巴巴 集团 希望 通过 分 享 和 挖掘 海量 数据 ,为 国家 和 中 小 企业 提供 价 
值 。 此 举 是 国内 企业 最 早 把 大 数据 提升 到 企业 管理 层 高 度 的 一 次 重大 里 程 碑 。 阿 里 巴巴 也 
是 最 早 提出 通过 数据 进行 企业 数据 化 运营 的 企业 。 

2012 年 12 月 ,英国 数据 战略 委员 会 成 立 了 世界 上 第 一 个 非 重 利 性 的 开放 数据 协会 
(Open Data Institute,ODD ,推动 开放 数据 的 进程 。 

2013 年 ,“ 开 放 政 府 联 盟 (OGP)” 的 8 个 成 员 国 (美国 .英国 法国. 德国、 意大利 ,加 拿 
大 \ 日 本 及 俄罗斯 ) 签 署 ( 开 放 数 据 宪章 ), 承 诺 在 2013 年 年 底 前 ,制定 开放 数据 行动 方案 。 
截止 到 2014 年 2 月 ,全 球 已 有 63 个 国家 加 入 OGP。 

2014 年 4 月 ,世界 经 济 论坛 以 “大 数据 的 回报 与 风险 ”主题 发 布 了 《全 球 信息 技术 报告 
(第 13 版 )》。 报 告 认 为 ,在 未 来 几 年 中 针对 各 种 信息 通信 技术 的 政策 甚至 会 显得 更 加 重要 。 
在 接 下 来 将 对 数据 保密 和 网 络 管制 等 议题 展开 积极 讨论 。 全 球 大 数据 产业 的 日 趋 活跃 , 技 
术 演 进 和 应 用 创新 的 加 速 发 展 ,使 各 国政 府 逐 渐 认 识 到 大 数据 在 推动 经 济 发 展 .改善 公共 服 
务 .增进 和 人民 福 社 ,乃至 保障 国家 安全 方面 的 重大 意义 。 

2014 年 5 月 ,美国 白宫 发 布 了 2014 年 全 球 “ 大 数据 ?白皮书 的 研究 报告 (大 数据 : 抓 住 
机 遇 、 守 护 价值 >。 报告 鼓励 使 用 数据 以 推动 社会 进步 ,特别 是 在 市 场 与 现 有 的 机 构 并 未 以 
其 他 方式 来 支持 这 种 进步 的 领域 ; 同时 ,也 需要 相应 的 框架 、 结 构 与 研究 ,来 帮助 保护 美国 
人 对 于 保护 个 人 隐私 、 确 保 公平 或 是 防止 歧视 的 坚定 信仰 。 

2014 年 8 月 ,联合 国 开发 计划 署 首次 携手 科技 企业 共 建 大 数据 实验 室 , 利 用 大 数据 技 
术 和 联合 国 的 全 球 发 展 经 验 , 在 环境 保护 、 医 疗 与 疾病 预防 .教育 .扶贫 等 诸多 领域 进行 深入 





的 研究 分 析 ,推动 大 数据 解决 全 球 问 题 的 创新 模式 ,促进 持续 发 展 。 

2014 年 ,世界 经 济 论坛 以 “大 数据 的 回报 与 风险 ”为 主题 发 布 了 《全 球 信息 技术 报告 (第 
13 版 )》。 

2015 年 8 月 31 日 ,中 华人 民 共 和 国 国 务 院 印发 4 促进 大 数据 发 展 行动 纲要 》( 国 发 
52015]50 号 ) 。 

2016 年 8 月 26 日 《大 数据 产业 "十 三 五 ?发 展 规划 》 已 经 呼之欲出 。 此 次 编制 的 (大 数 
据 产业 “十 三 五 ”发 展 规 划 ) 中 ,工业 大 数据 、 大 数据 资源 开放 共享 、 大 数据 交易 .大 数据 安全 、 
大 数据 标准 、 大 数据 行业 应 用 等 领域 是 研究 重点 。 

2016 年 11 月 17 日 ,全球 大 数据 高 峰 论 坛 在 中 国 青岛 隆重 召开 。 以 “数据 创造 价值 
智慧 引领 未 来 ”为 主题 ,聚焦 全 球 大 数据 发 展现 状 , 致 力 于 发 现 大 数据 与 产业 融合 之 道 ,挖掘 
大 数据 行业 发 展 的 未 来 机 遇 ,推动 大 数据 应 用 研究 与 信息 经 济 进一步 发 展 壮大 。 

2017 年 1 月 17 日 ,中 国 工业 和 信息 化 部 印发 了 《大 数据 产业 发 展 规划 (2016 一 2020 
年 )》 提 出 ,到 2020 年 ,大 数据 相关 产品 和 服务 业务 收入 突破 1 万 亿 元 ,年 均 复合 增长 率 保持 
在 30% 左 右 。 
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大 数据 的 概念 和 特征 都 说 明了 大 数据 不 是 一 个 简单 的 名 词 ,而 是 一 系列 技术 综合 运用 的 
集合 。 大 数据 处 理 关 键 技术 一 般 包括 大 数据 采集 ,大 数据 预 处 理 , 大 数据 存储 及 管理 ,大 数据 
分 析 及 挖掘 .大 数据 展现 和 应 用 (大 数据 检索 ,大 数据 可 视 化 ,大 数据 应 用 ,大 数据 安全 等 ) 。 

大 数据 产生 有 其 必然 性 ,主要 归结 于 互联 网 、 移 动 设备 、 物 联网 和 云 计 算 等 的 快速 崛起 ， 
全 球 数据 量 大 幅 提升 ,是 实现 大 数据 采集 存储、 处 理 和 呈现 的 有 力 武器 ,在 很 大 程度 上 是 大 
数据 产生 的 原因 ,应 用 需求 引导 着 技术 的 研发 方向 ,技术 突破 促进 了 创新 模式 的 实现 。 

如 果 把 新 一 代 信 息 系 统 类 比 成 人 体 : 物 联网 是 “感官 ”; 移动 互联 网 是 “神经 >; 云 计算 
是 “ 心 胜 和 体魄 ”; 大 数据 是 “聪明 的 大 脑 ", 如 图 2-1 所 示 。 
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2.1 物 联 网 


人 类 从 古 到 今 ,一 直面 临 一 个 巨大 的 问题 : 如 何 获取 信息 、 传 递 信 息 、 处 理 信息 和 应 用 
信息 。 面 对 周围 复杂 的 环境 ,人 们 需要 各 种 各 样 的 信息 方便 工作 和 学 习 , 以 便 提 高 效率 。 从 
古代 的 驿站 飞 铝 传 书 到 今天 的 发 报 机 、 固 定 电话 ,手机 、 对 讲 机、 卫星 电话 以 及 互联 网 都 是 为 
了 解决 信息 的 传递 。 随 着 微 电 子 技术 和 自动 化 控制 技术 的 发 展 . 电 子 计算 机 的 产生 ,人 类 处 
理 信 息 的 能 力 大 大 提升 。 

但 是 , 随 着 社会 的 发 展 , 人 们 需要 获取 的 信息 飞速 增长 ,如何 更 有 效 地 获取 信息 、 传 递 信 
息 和 使 用 信息 成 为 迫切 要 解决 的 问题 。 物 联网 技术 的 出 现 为 人 们 解决 数据 采集 问题 绘制 了 
一 幅 宏 大 的 蓝图 。 


2.1.1 物 联网 的 概念 


1. 物 联网 概念 提出 (1995 一 1999 年 ) 

物 联 网 (Internet of Things,IoT) 概 念 起 源 于 比尔 。 盖 蒋 1995 年 所 编写 的 (未 来 之 路 》 
一 书 。 在 该 书 中 ,比尔 。 盖 茨 已 经 提 及 物 联网 的 概念 ,只 是 当时 受 限 于 无 线 网 络 、 硬 件 及 传 
感 设备 的 发 展 , 并 未 引起 人 们 的 重视 。 

1998 年 ,美国 麻 省 理工 学 院 C(MIT) 创造性 地 提出 了 当时 被 称 作 EPC (Electronic 
Product Code) 系 统 的 “ 物 联 网 ”的 构想 。1999 年 ,美国 麻 省 理工 学 院 Auto_ID 中 心 首 先 提 
出 “ 物 联 网 ”的 概念 ,即将 所 有 物品 通过 射频 识别 等 信息 传 感 设备 与 互联 网 连接 起 来 ,实现 智 
能 化 识别 和 管理 的 网 络 。 人 们 将 按照 特定 的 数据 格式 ,将 每 一 件 物 品 赋予 一 个 唯一 的 编号 ， 
这 个 编号 就 是 EPC, 而 电子 标签 是 这 一 编号 的 载体 。 基 于 互联 网 和 射频 技术 的 EPC 系统 ， 
即 实物 物 联 网 (简称 物 联网 ) 是 在 计算 机 互联 网 的 基础 上 ,利用 RFID(Radio Frequency 
Identification ,射频 识别 ) ,无 线 数据 通信 等 技术 构造 了 一 个 实现 全 球 物品 信息 实时 共享 的 
网 络 。 

该 阶段 物 联网 的 概念 内 涵 很 小 ,具体 等 同 于 物品 的 联网 ,目的 是 实现 全 球 物品 的 信息 实 
时 共享 。 其 主要 组 成 部 分 包括 RFID、 无 线 数据 通信 、 互 联网 和 数据 存储 。 

2. 概念 延伸 (1999 一 2008 年 ) 

2005 年 11 月 17 日 信息 社会 世界 峰会 (World Summit on the Information Society， 
WSIS) 上 ,国际 电信 联盟 发 布 了 《ITU 互联 网 报告 2005: 物 联网 ,正式 提出 了 “ 物 联网 ”的 
概念 (如 图 2-2 所 示 ) ,包括 人 与 物 , 物 与 物 之 间 的 连接 , 即 在 任何 时 间 、 任 何 地 点 、 任 何 物品 
间 都 可 以 进行 通信 ,重点 突出 了 连接 对 象 的 无 所 不 包 和 网 络 的 无 处 不 在 以 及 物体 的 智能 化 ， 
重点 体现 把 * 物 ”纳入 网 络 中 和 任何 地 方 都 有 网 络 。 

ITU 的 报告 描绘 了 “ 物 联网 ?时 代 的 图 景 : 当 司 机 出 现 操作 失误 时 汽车 会 自动 报警 ; 公 
文 包 会 提醒 主人 忘 带 了 什么 东西 ; 衣服 会 “告诉 ?洗衣 机 对 颜色 和 水 温 的 要 求 等 。 

2008 年 9 月 5 日 ,EPOSS(European Technology Platform on Smart Systems Integration , 欧 
洲 智能 集成 系统 技术 平台 ) 在 (2020 年 的 物 联网 : 未 来 发 展 方向 ) 中 指出 , 物 联 网 将 通过 智 
能 接口 连通 社会 环境 和 用 户 , 形 成 一 个 智慧 的 空间 ,其 中 的 任何 事物 都 具有 一 个 独立 的 虚 
拟 的 身份 标识 ,并 且 任 何人 在 其 中 都 可 以 进行 个 性 化 的 操作 。 
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图 2-2 ITU 对 物 联网 的 界定 
(资料 来 源 :《ITU 互联 网 报告 2005: 物 联网 》) 


2008 年 10 月 ,巴黎 高 等 电信 商学 院 的 多 位 专家 在 The Internet of Things 一 What 
Challenges for Europe? 中 给 出 了 物 联网 的 建议 性 定义 : 物 联 网 是 可 以 方便 识别 数字 实体 
和 物理 对 象 的 相互 连通 的 网 络 ,无 论 是 无 生命 的 (基础 设施 ) 或 有 生命 的 (动物 .植物 和 人 ) 都 
包含 在 内 ,通过 标准 的 电子 识别 系统 和 无 线 通信 设备 ,都 可 以 获取 存储、 传输 和 处 理 各 类 信 
息 数据 ,将 现实 与 虚拟 无 缝 连接 在 一 起 。 

欧盟 委员 会 则 认为 物 联网 将 会 是 未 来 网 络 的 整合 , 它 是 以 标准 的 ,互通 的 通信 协议 为 基 
础 ,具有 自我 配置 能 力 的 全 球 性 动态 网 络 。 在 这 个 网 络 中 ,所 有 实体 的 和 虚拟 的 物体 都 有 特 
定 的 编码 和 物理 特性 ,通过 智能 界面 无 缝 连接 ,实现 信息 的 共享 。 

物 联网 的 概念 得 到 了 进一步 延伸 ,从 物 联网 的 对 象 上 来 说 ,人 既是 物 联 网 中 信息 的 使 用 
者 和 受益 者 ,也 是 物 联网 的 连接 对 象 ,也 就 是 说 ,在 物 联网 中 不 仅 包括 “ 物 ”, 还 包括 "人 ”, 人 
已 经 被 看 成 了 “物品 ”。 从 应 用 的 范围 上 来 说 , 物 联网 可 以 实现 任何 时 间 、 任 何 地 点 以 及 任何 
人 和 物 的 通信 。 同 时 将 射频 识别 技术 (RFID) 传感器 技术 、 纳 米 技术 .智能 散人 技术 指定 为 
物 联网 发 展 的 4 大 关键 技术 。 

3. 物 联 网 概念 的 界定 

随 着 IBM 提出 “智慧 地 球 ” 和 美国 政府 的 积极 响应 ,全球 很 多 国家 将 物 联网 上 升 到 国家 
战略 角度 ,并 制定 了 相关 的 信息 战略 。 如 美国 的 “智慧 地 球 ”; 欧盟 的 “超越 RFID 一 一 物 联 
网 ”; 日 本 的 “ 泛 在 信息 社会 ”; 韩国 的 “ 物 联网 规划 ”; 新 加 坡 的 “智慧 国 2015” 计 划 。 我 国 
国务 院 出 台 的 《关于 推进 物 联 网 有 序 健康 发 展 的 指导 意见 ) 进 一 步 明 确 发 展 目标 和 发 展 思 
路 ,推出 10 个 物 联 网 发 展 专项 行动 计划 落实 具体 任务 。 越 来 越 多 的 各 国学 者 、 企 业 家 、 研 究 
机 构 和 政府 机 构 也 开始 或 加 大 对 物 联网 概念 ,组 成 .应 用 以 及 创造 的 产业 价值 等 各 方面 的 研 
究 。 物 联网 内 涵 的 界定 如 图 2-3 所 示 。 

狭义 的 物 联 网 就 是 物 和 物 的 通信 ,也 就 是 图 2-3 中 右边 虚线 圈 内 的 部 分 ,如 果 我 们 把 人 
也 看 做 物 ,那么 整个 图 就 是 广义 的 物 联 网 。 

物 联网 是 在 计算 机 互联 网 的 基础 上 ,利用 RFID 等 技术 构造 一 个 覆盖 世界 上 万 事 万 物 
的 “Internet of Things”。 通 过 计算 机 互联 网 实现 物品 (商品 ) 的 自动 识别 和 信息 的 互联 与 
二 
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图 2-3 物 联 网 的 含义 


2.1.2 物 联网 : 大 数据 资源 的 重要 提供 者 


物 联网 的 应 用 是 基于 物 联 网 自身 的 特点 而 发 展 起 来 的 。 物 联网 具有 以 下 特点 。 

(1) 对 物品 实现 唯一 标识 ; 

(2) 对 物品 快速 分 级 进行 处 理 ; 

(3) 对 物品 物流 信息 实行 实时 监控 ; 

(4) 对 信息 进行 非 接 触 自动 处 理 ; 

(5) 可 以 实现 各 环节 信息 共享 。 

基于 这 些 特点 , 物 联网 在 许多 行业 发 展 了 不 同 的 应 用 ,比如 物流 业 方 面 的 供应 链 管 理 、 
安全 检测 方面 的 环境 监测 、 医 疗 业 方面 的 电子 病历 .灾害 /危机 管理 等 ,如 图 2-4 所 示 。 

以 物流 业 为 例 , 在 供应 链 管理 中 每 个 商品 都 有 唯一 的 编码 对 其 进行 编号 ,然后 根据 这 个 
编号 实时 监控 商品 位 置 ,以 确定 商品 的 传输 流程 。 由 于 商品 一 直 在 移动 、 半 移动 状态 ,所 以 
只 能 对 商品 进行 非 接 触 式 自动 处 理 , 同 时 由 于 商品 信息 需要 在 各 个 部 门 之 间 流 动 , 因 此 需要 
信息 的 共享 以 便 能 进行 有 效 的 管理 。 

工业 方面 ,以 美国 工业 互联 网 、 德 国 工业 4.0 和 中 国 制 造 2025 战略 为 代表 , 物 联网 成 为 
实现 制造 业 智 能 化 变革 和 重 塑 国家 竞争 优势 的 关键 技术 基础 .围绕 物 联 网 的 全 球 生态 构建 
和 产业 布局 正 加 速 展开 。 

同时 , 物 联 网 也 是 智慧 城市 发 展 的 核心 基础 要 素 ,在 城市 管理 ,节能 减 排 .能 源 管理 ,智能 交 
通 等 领域 进行 广泛 应 用 ,“ 前 端 设备 智能 化 十 后 端 服务 平台 化 十 大 数据 分 析 ” 成 为 通用 模式 ?。 


@ 2015 物 联网 白皮书 LRJ. 中 国信 息 通信 研究 院 ,2015. 
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唯一 标识 快速 处 理 ”实时 监控 非 接触 六 息 共享 
图 2-4 物 联 网 的 应 用 


物 联网 的 快速 发 展 , 使 其 成 为 大 数据 资源 重要 的 提供 者 。 相 对 于 现 有 互联 网 数据 的 杂 
乱 无 章 和 价值 密度 低 的 特点 ,通过 可 穿戴 .车 联网 等 多 种 数据 采集 终端 定向 采集 的 数据 资源 
更 具 利 用 价值 。 

智能 化 的 可 穿戴 设备 层出不穷 ,例如 智能 手 环 、. 腕 带 .手表 等 可 穿戴 产品 正在 走向 成 熟 , 智 
能 钥匙 扣 、 自 行车 、 笑 子 等 ,国外 的 Intel .Google、Facebook, 国 内 的 百度 京东、 小 米 等 企业 都 在 
该 领域 内 有 所 布局 。 根 据 IDC 公司 统计 ,到 2016 年 年 底 . 全 球 可 穿戴 设备 的 出 货 量 达到 一 亿 
多 台 , 较 2015 年 增长 29.0%。 到 2020 年 之 前 ,可 穿戴 设备 市 场 的 年 复合 增长 率 将 为 20. 3%， 
而 2020 年 将 达到 2. 136 亿 台 了。 可 穿戴 设备 可 以 实现 7X24 小 时 不 间断 地 收集 个 人 健康 数 
据 , 在 医疗 保健 领域 有 广阔 的 应 用 前 景 ,一 旦 技术 成 熟 , 设 备 测量 精度 达到 医用 要 求 ,电池 续 
航 能 力也 有 显著 增强 ,就 很 可 能 进入 大 规模 应 用 阶段 ,从 而 成 为 重要 的 大 数据 来 源 。 

此 外 , 据 Strategy Analytics 公司 预计 ,车 载 前 端 联网 模式 在 未 来 5 年 内 将 迎 来 发 展 黄 
金 期 ,2020 年 将 达到 49%%@。 车 联网 的 成 熟 发 展 , 将 为 基于 位 置 及 路 况 的 大 数据 应 用 提供 
更 为 实时 ,准确 的 基础 数据 资源 。 


2.2 移动 互联 网 


伴随 着 互联 网 技术 的 完善 和 移动 通信 技术 的 不 断 升 级 换代 ,移动 互联 网 作为 移动 通信 
和 传统 互联 网 融合 的 产物 ,被 视 为 未 来 网 络 发 展 最 重要 的 趋势 之 一 。 移 动 互联 网 的 发 展 颠 
窟 了 世界 的 方方面面 。 


2.2.1 移动 互联 网 的 发 展 


2015 年 3 月 世界 通信 大 会 发 布 (移动 经 济 2015》, 报 告 指出 : 大 量 移 动 通信 用 户 开始 享 
用 3G 及 4G 宽带 网 络 ,移动 宽带 (3G 十 4G) 通 信用 户 比 例 已 达 40% ,预计 到 2020 年 将 增 至 


® http://www. idc. com/getdoc.jsp? containerld=prUS41530816. 
加 http://www.askci. com/new/dxf/20160727/15510447326. shtml. 


约 70%6Q。2015 年 12 月 1 日 ,国际 电信 联盟 (ITU) 发 布 了 年 度 互联 网 调查 报告 。 报 告 显示 ， 
全 球 手 机 用 户 数 达 到 71 亿 , 手 机 信号 已 覆盖 了 全 球 超过 95% 的 人 口 ,已 有 32 亿 人 联网 。 

中 国 互 联网 络 信息 中 心 CCNNIC)2017 年 1 月 发 布 的 第 39 次 4 中 国 互 联网 络 发 展 状况 
统计 报告 ) 显 示 ,截至 2016 年 12 月 ,中 国 网 民 规 模 达 7. 31 亿 , 普 及 率 达 53.2% ,超过 全 球 
平均 水 平 3. 1 个 百分点 ,超过 亚洲 平均 水 平 7. 6 个 百分点 。 全 年 共计 新 增 网 民 4299 万 人 ， 
增长 率 为 6.2%。 其 中 ,手机 网 民 规 模 达 6. 95 亿 , 占 比 达 95. 1%% ,增长 率 连 续 三 年 超过 
10%@, 如 图 2-5 所 示 。 
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图 2-5 移动 互联 网 


移动 互联 网 已 经 形成 一 个 超过 万 亿美 元 规模 的 巨大 产业 ,并 迅速 应 用 于 人 金融、 商务 、 物 
流 、 医 疗 、 教 育 等 社会 各 行业 ,对 经 济 社会 的 影响 急速 放大 .乃至 成 为 “互联 网 十 ”的 基础 设 
施 。 移 动 互联 网 时 代 已 经 到 来 ! 

移动 互联 网 体现 了 “无 处 不 在 的 网 络 、 无 所 不 能 的 业务 "的 思想 ,正在 改变 着 人 们 的 生活 
方式 和 工作 方式 。 移 动 互联 网 应 用 具有 移动 性 和 个 性 化 等 特征 : 用 户 可 以 随时 随地 获得 移 
动 互联 网 服务 ; 这 些 服务 可 以 根据 用 户 位 置 、 兴 趣 偏好 、 需 求 和 环境 进行 定制 。 随 着 大 数 
据 、 云 计算 等 技术 的 发 展 ,用 户 从 信息 的 获得 者 变 为 信息 的 贡献 者 ,基于 群体 用 户 、 个 人 用 户 
需求 ,位 置 等 信息 的 深度 挖掘 ,移动 互联 网 应 用 趋 于 个 性 化 和 智能 化 。 

移动 互联 网 具有 带动 其 他 产业 发 展 和 附加 值 高 以 及 运营 总 体 成 本 很 低 的 优势 .也 极 大 


@ 2015 移动 互联 网 白皮书 [R]. 中 国信 息 通信 研究 院 ,2015. 
@ ”中国 互 联网 络 信息 中 心 (CNNIC). 中 国 互联 网 络 发 展 状况 统计 报告 (第 39 次 )[R]. 2017. 
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地 促进 了 企业 能 够 快速 便捷 地 发 展 自身 的 电子 商务 等 其 他 方面 的 产业 。 这 种 发 展 模式 已 经 
开始 潜移默化 地 渗透 到 很 多 行业 ,加 快 了 传统 行业 向 全 新 的 经 营 模式 转变 的 脚步 9。 
2.2.2 移动 互联 网 : 大 数据 的 传输 载体 


移动 互联 网 补充 了 传统 互联 网 的 网 络 空隙 ,形成 了 一 个 全 覆盖 的 泛 在 网 络 空间 ,是 承载 和 传 
送 各 类 数据 的 “邮差 "”。 大 数据 的 信息 收集 与 传输 需要 无 线 电 技术 作为 其 载体 ,如 图 2-6 所 示 。 





图 2-6 大 数据 的 传输 载体 


大 数据 的 传输 载体 按照 技术 方式 的 不 同 可 以 大 致 分 为 两 类 : 有 线 传输 接 入 ,无 线 传输 接 
入 。 其 中 ,有 线 传输 接 人 以 宽带 为 代表 ,而 无 线 传输 接 人 则 有 广电 网 、 无 线 电信 网 \WAPI/ 
Wi-Fi、 蓝 牙 .WLAN、WiMax、ZigBee 等 方式 。 各 类 无 线 技术 的 传输 特性 如 图 2-7 所 示 。 
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黄旗 莹 访 








图 2-7 常用 无 线 技术 的 传输 特性 


@ 李 春 生 .移动 互联 网 发 展 趋势 研究 []]. 中 国 高 新 技术 企业 .2016.(01): 1-2. 
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不 同 传输 技术 之 间 存 在 着 传输 速率 与 移动 性 的 差异 ,而 传输 速率 和 移动 性 又 相互 形成 
互补 关系 ,使 得 各 项 技术 能 够 在 物理 空间 实现 无 缝 连接 ,一些 移动 性 不 好 的 技术 能 够 有 较 高 
的 传输 速率 ,而 移动 性 好 的 技术 移动 速率 则 偏 低 ,最 终 使 得 在 任何 时 间 、 任 何 空间 都 能 实现 
物 联网 的 传输 与 接 入 。 


2.3 云 计 算 


DT( 数 据 技术 ) 时 代 将 是 客户 体验 至 上 的 时 代 , 这 需要 数据 计算 能 力 的 提升 ,大 数据 、 数 
据 挖 掘 .数据 分 析 等 工具 为 发 现 和 利用 这 些 数据 的 价值 带 来 了 可 能 ,数据 正在 被 云 计算 发 展 
和 征服 。 

云 计 算是 并 行 计算 (Parallel Computing) 分布 式 计算 (Distributed Computing) 和 网 格 
计算 (Grid Computing) 的 发 展 ,或 者 说 是 这 些 计算 机 科学 概念 的 商业 实现 。 云 计算 是 虚拟 
化 (Virtualization) .效用 计算 (Utility Computing) ,IaaS( 基 础 设施 即 服 务 )、PaaS( 平 台 即 服 
务 )、SaaS( 软 件 即 服务 ) 等 概念 混合 演进 并 跃升 的 结果 。 


2.3.1 云 计 算 的 优点 


云 计 算 使 计算 分 布 在 大 量 的 分 布 式 计算 机 上 ,而 非 本 地 计算 机 或 远程 服务 器 中 ,用 户 数 
据 中 心 的 运行 与 互联 网 更 相似 。 这 使 得 用 户 能 够 将 资源 切换 到 需要 的 应 用 上 ,根据 需求 访 
问 计算 机 和 存储 系统 ,数据 通过 互联 网 或 相应 专属 网 络 进 行 传输 。 以 云 计算 为 基础 的 信息 
处 理 ,存储 和 分 享 手 段 ,可 以 更 便捷 、 高 效 地 将 这 些 大 量 高速 、 多 种 数据 类 型 ,价值 密度 低 的 
数据 进行 存储 、 传 输 与 分 析 计算 。 应 用 云 计 算 技术 对 大 数据 进行 计算 、 分 析 , 可 以 发 掘 和 释 
放出 更 多 的 数据 隐藏 价值 ,为 实现 精准 决策 提供 更 多 的 有 用 信息 。 

云 计算 具有 如 下 优点 。 

(1) 超大 规模 , 特 高 性 能 。 现 有 提供 云 服 务 的 企业 如 Google、Amazon、IBM、 微 软 、 
Yahoo、 阿 里 云 等 ,都 拥有 超过 数 十 万 台 的 云 计算 服务 器 。 一 般 企业 私有 云 也 具有 成 百 上 千 
台 服 务 器 。 云 计算 服务 器 在 大 规模 布置 的 同时 也 为 用 户 赋予 了 前 所 未 有 的 计算 性 能 ,原来 
需要 耗费 大 量 时 间 ,大 量 资源 的 计算 任务 ,通过 使 用 云 计 算 服 务 可 以 极 大 地 降低 计算 时 间 和 
所 耗资 源 。 

(2) 虚拟 化 ,高 弹性 。 云 计算 将 传统 的 计算 、 网 络 和 存储 资源 ,通过 使 用 虚拟 化 、 容 错 和 
并 行 处 理 等 方式 ,转化 为 可 以 弹性 伸缩 的 服务 ,用 户 可 以 在 任意 位 置 、 通 过 各 种 终端 获取 应 
用 服务 而 无 须 考虑 应 用 运行 的 具体 位 置 和 运行 方式 。 

(3) 服务 可 靠 性 高 。 云 计算 通过 多 副本 容错 、 计 算 节 点 同 构 可 互 换 等 措施 来 保障 服务 
的 高 可 靠 性 。 添 加 、 删 除 \ 修 改 云 计算 环境 的 任 一 资源 节点 ,抑或 任 一 资源 节点 异常 宕 机 ,都 
不 会 导致 云 计算 环境 中 的 各 类 业务 的 中 断 ,也 不 会 导致 用 户 数据 的 丢失 。 这 里 的 资源 节点 
可 以 是 计算 节点 、 存 储 节点 和 网 络 节点 。 

(4) 资源 动态 扩展 。 云 计算 整合 众多 计算 机 资源 ,构成 技术 存储 模式 ,实现 并 行 计算 、 
网 格 计算 ,分布 式 计算 ,分布 式 存储 等 多 种 方式 。 在 云 计算 平台 下 通过 资源 调度 机 制 动 态 控 
制 云 计算 规模 ,满足 应 用 和 计算 规模 增长 的 需要 。 在 系统 业务 需求 升 高 时 ,启动 闲置 资源 纳 
和 人 系统 ,提高 云 平台 的 承载 能 力 ; 在 系统 业务 负载 低 时 ,将 业务 集中 起 来 ,释放 部 分 资源 闲 
置 给 云 之 外 的 其 他 应 用 : 从 整体 上 动态 调整 资源 使 用 情况 。 


(5) 按 使 用 付费 ,价格 廉价 。 云 计算 平台 通过 虚拟 分 拆 技术 实现 了 计算 资源 的 同 构 化 
和 可 度量 化 。 云 计算 服务 提供 一 个 庞大 的 资源 池 , 用 户 可 以 按 需 购买 ,而 且 目 前 大 多 云 服务 
采用 的 是 按 使 用 量 计 费 的 收费 模式 ,用 户 仅 需 对 所 使 用 的 资源 付费 。 此 外 ,“ 云 ”的 可 动态 扩 
展 资源 的 特点 也 使 其 资源 利用 率 较 传统 系统 有 了 大 幅 提升 ,而 且 “ 云 ”的 自动 化 集中 式 管理 
也 使 大 量 企业 无 须 负 担 高 昂 的 数据 中 心 管理 成 本 ,用 户 可 以 充分 享受 云 服 务 带 来 的 价 廉 而 
高 性 能 的 服务 。 

人 类 进入 了 数字 时 代 ,数字 化 带 给 人 类 的 是 史无前例 的 效率 提升 和 资源 节约 。 但 是 , 信 
息 化 的 历史 告诉 我 们 ,我们 在 发 展 信息 化 方面 已 经 造成 的 浪费 可 能 比 在 其 他 方面 浪费 得 更 
多 。 从 大 数据 概念 的 提出 到 现在 已 经 过 去 了 七 八 年 的 时 间 , 可 是 人 们 对 于 大 数据 ,数据 挖 
掘 、 数 据 统 计 和 数据 分 析 仍然 没有 分 得 很 清楚 ,分 不 清 在 何 种 环境 下 的 哪些 问题 需要 采用 什 
么 样 的 技术 去 处 理 ,分 不 清 在 什么 情况 下 传统 的 技术 已 经 无 法 解决 问题 而 必须 发 展 云 计算 。 
模糊 的 认识 必然 影响 大 数据 的 利用 和 发 展 ,很 可 能 形成 为 了 节约 却 造成 了 更 大 浪费 的 情况 。 
一 方面 是 世界 技术 的 高 速 发 展 , 另 一 方面 是 我 们 较 低 的 数据 应 用 水 平和 能 力 ,这 是 我 国 当前 
大 数据 研究 和 发 展 方面 面临 的 最 大 问题 。 


2.3.2 云 计 算 与 大 数据 的 关系 


大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反 面 一 样 密 不 可 分 ,一 个 是 问题 ,一 个 是 解决 
问题 的 必然 方法 。 大 数据 必然 无 法 用 单 台 的 计算 机 进行 处 理 , 必 须 采用 分 布 式 计算 架构 。 
大 数据 的 特色 在 于 ,对 海量 数据 的 运算 必须 依托 云 计 算 的 分 布 式 处 理 , 存 储 与 访问 技术 。 正 
是 因为 云 计算 采用 分 布 式 运算 技术 , 云 计算 的 速度 和 实时 性 较 传统 技术 要 高 很 多 。 云 计算 
解决 的 是 数据 的 处 理 能 力 和 处 理 效率 ,与 大 数据 技术 相辅相成 ,如 图 2-8 所 示 。 








云 应 用 产生 和 聚集 大 数据 
随 着 传统 IT 系统 向 云 迁移 ， 在 云 平 
Ee EE EE。 的 大 所 为 
云 平台 支撑 大 数据 处 理 
云 计 算 平 台 为 大 数据 处 理 提供 弹性 
基础 资源 池 、 在 线 数据 库 、 在 线 数 
据 仓库 等 服务 。 





图 2-8 云 计算 与 大 数据 


多 样 的 数据 类 型 涉及 数字 、 文 字 、 图 片 . 语 音 、 视 频 、 地 理 位 置 、 网 络 日 志 信息 等 。 从 数据 
结构 来 看 ,可 分 为 非 结构 化 数据 、 半 结构 化 数据 和 结构 化 数据 ; 从 数据 存储 方案 的 角度 ,还 
可 以 分 为 分 布 式 存储 和 集中 式 存储 ; 从 数据 质量 来 看 .数据 的 完整 性 、 可 信 性 与 可 用 性 也 大 
不 相同 。 对 于 是 否 必须 采用 大 数据 运算 ,在 数据 规模 和 数据 复杂 性 之 间 存 在 一 定 的 取舍 关 
系 。 一般 来 说 ,分 布 式 存储 就 意味 着 很 大 的 数据 体 量 ,分布 存储 的 数据 就 需要 用 大 数据 技术 
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来 处 理 了 ,传统 技术 已 经 无 法 使 用 。 大 数据 适合 于 处 理 分 布 式 存储 的 复杂 数据 。 

新 型 的 处 理 技术 主要 是 指 云 计算 技术 。 最 典型 的 云 计算 技术 是 以 Google 公司 的 Hadoop 
为 代表 的 云 计 算 技 术 , 其 中 包括 HDFS、Hadoop Map Reduce 以 及 Hadoop Common。 

云 计 算 技 术 出 现 之 前 ,传统 的 计算 机 、 数 据 库 完全 无 法 处 理 如 此 量 大 且 不 规则 的 非 结构 
数据 。 云 计算 技术 的 出 现 使 大 数据 的 处 理 成 为 可 能 ,使 得 原来 在 有 限 的 服务 器 ,数据库 、 终 
端 上 需要 耗费 大 量 的 人 力 、 物 力 和 时 间 才 能 完成 的 运算 问题 不 再 艰难 。 可 以 说 大 数据 运算 
就 意味 着 : 运用 云 计 算 技 术 , 高 速 处 理 体 量 在 10TB 级 别 以 上 的 分 布 式 数据 或 各 类 复杂 
数据 。 


2.4 智 达 旅游 的 大 数据 采集 


近 些 年 , 随 着 假日 经 济 的 发 展 ,我 国旅 游 业 发 展 进入 了 上 升 通道 ,在 繁荣 发 展 的 背后 问 
题 也 逐渐 显现 出 来 。 游 客 的 数量 迅速 增长 也 给 景区 、 交 通 等 各 个 相关 行业 带 来 压力 。 在 热 
门 旅游 时 间 点 ,如 十 一 等 旅游 黄金 周 ,多 次 出 现 了 部 分 景点 人 满 为 患 的 现象 ,提高 了 景区 管 
理 的 难度 ,也 影响 了 游客 的 体验 感知 。 

大 数据 不 同 于 传统 的 数据 应 用 ,主要 体现 在 数据 的 “ 体 量 巨大 、 多 维度 、 实 时 性 ”, 其 中 ， 
“多 维 "一 方面 指 面向 同一 主体 的 数据 视角 丰富 , 男 一 方面 也 指数 据 结 构 上 不 同 于 传统 的 结 
构 化 数据 ,是 包括 图 像 、 视 频 等 数据 在 内 的 多 类 型 数据 的 整合 应 用 。 

旅游 景区 的 大 数据 应 用 ,相对 互联 网 企业 ,其 数据 量 相 对 较 小 ,其 应 用 的 难点 更 多 在 于 
采集 处 理 “ 多 维度 ”数据 和 "实时 性 ”数据 两 个 方面 。 

旅游 景区 大 数据 的 多 维度 包括 景区 IT 平台 原 有 数据 视频 监 控 数 据 、 各 类 景区 传感器 
数据 ` 地 理 信 息 数据 .气象 数据 ` 外 部 互联 网 数据 等 。 其 中 ,互联 网 数据 又 涵盖 了 LBS 用 户 
定位 .搜索 数据 ,网 上 交易 数据 ,社交 数据 等 ,这 些 数据 都 可 以 通过 科学 的 数据 模型 进行 整合 
梳理 找 出 有 价值 的 规律 和 方向 。 旅 游 景 区 大 数据 的 实时 性 主要 体现 在 基于 视频 .GPS 等 捕 
捉 到 的 监控 数据 ,用 于 客流 监控 、 轨 迹 监 控 和 防火 预警 等 方面 。 

数据 源 汇聚 包括 景区 内 部 采集 沉淀 的 多 类 数据 以 及 外 部 引入 的 数据 两 类 数据 资源 整 
合 , 以 及 搭建 统一 的 信息 平台 承载 相应 的 数据 资源 两 个 重要 部 分 。 


2.4.1 整合 内 外 部 数据 


1. 物 联网 采集 的 内 部 数据 

是 多 层次 感知 景区 的 重要 技术 手段 ,是 通过 射频 识别 (RFID) ,红外 感应 器 、 全 球 定位 系 
统 、 激 光 扫 描 器 .二 维 码 识别 终端 等 信息 传 感 设备 , 按 约定 的 协议 把 各 类 物品 和 互联 网 连接 
起 来 ,进行 信息 交换 和 通信 ,以 实现 智能 化 识别 、 定 位 、 跟 踪 、 监 控 和 管理 的 一 种 网 络 。 

物 联网 实现 了 人 与 人 、 人 与 机 器 、 机 器 与 机 器 的 互联 互通 。 通 过 RFID 传感器 ,二 维 码 
等 信息 传 感 设备 植 入 门票 桥梁、 公路、 建筑 、 供 水 系统 、 电 网 等 景区 的 各 种 物体 中 ,可 以 实现 
对 景区 更 透彻 的 感知 ; 通过 与 互联 网 的 融合 ,能 将 景区 事物 信息 实时 准确 地 传递 出 去 ,从 而 
实现 更 为 广泛 的 互联 互通 ; 通过 利用 云 计算 、 模 糊 识 别 等 各 种 智能 计算 技术 ,对 海量 的 数 
据 和 信息 进行 分 析 和 处 理 , 能 够 帮助 对 景区 内 各 类 人 和 物 实 施 智 能 化 的 控制 ,如 图 2-9 
所 示 。 
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动物 资源 监测 
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物 联网 应 用 支撑 
公共 中 间 件 信息 开放 平台 云 计 算 平台 服务 支撑 平台 





移动 通信 网 、 互 联网 和 其 他 专 网 
异 构 网 融合 资源 和 存储 管理 
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传 感 网 组 网 与 协同 技术 处 理 


| 低速 和 中 高 速 短 | | 自 组 织 组 网 协同 信息 处 理 
| 距离 传输 技术 | 技术 | 技术 国人 中 同人 技术 


传 感 网 与 传 感 数据 采集 
传感器 二 维 条 码 RFID 多 媒体 技术 


图 2-9 智慧 景区 物 联网 技术 应 用 
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2. 引入 互联 网 数据 等 外 部 数据 资源 

互联 网 尤其 是 移动 互联 网 的 兴起 ,使 得 线 上 信息 总 量 正 以 极 快 的 速度 不 断 暴 涨 。 每 天 
在 微 博 、 微 信 , 论 坛 .新闻 评论 . 电 商 平台 上 分 享 各 种 文本 、. 照 片 . 视 频 、 音 频数 据 等 信息 高 达 
几 百 亿 甚至 几 千 亿 条 ,这 些 信息 涵盖 着 商家 信息 ` 个 人 信息 .行业 资讯 .产品 使 用 体验 ,商品 
浏览 记录 \ 商 品 成 交 记录 产品 价格 动态 等 海量 信息 。 这 些 数据 通过 聚 类 可 以 形成 旅游 行业 
大 数据 ,其 背后 隐藏 的 是 旅游 行业 的 市 场 需求 ,竞争 情报 ,闪现 着 巨大 的 财富 价值 。 

目前 ,围绕 开放 数据 源 的 产业 生态 逐步 形成 ,有 大 量 的 公司 从 事 互联 网 等 开放 数据 的 采 
集 分 析 。 同 时 , 随 着 大 数据 应 用 对 外 部 数据 需求 的 增加 ,国内 近 些 年 也 出 现 了 包括 数据 堂 、 
贵阳 大 数据 交易 所 在 内 不 同类 型 的 数据 交易 机 构 ,使 得 在 大 数据 应 用 的 过 程 中 ,能 够 较为 高 
效 地 获得 外 部 数据 。 本 案例 通过 与 外 部 公司 合作 方式 获得 了 游客 在 各 个 平台 生成 的 数据 ， 
比如 旅游 攻略 相关 网 站 、 社 交 平 台 、 位 置 数据 等 。 


2.4.2 信息 化 平台 一 一 数据 采集 存储 基础 设施 


如 图 2-10 所 示 为 旅游 大 数据 信息 化 平台 。 
1. 信息 基础 实施 


主要 指 各 种 传 感 设备 (射频 传感器 ,位 置 传 感 器 \ 能 耗 传 感 器 、 速 度 传感器 、 热 敏 传 感 器 、 
湿 敏 传感器 、` 气 敏 传感器 .生物 传感器 等 ) ,这 些 设备 嵌入 到 景区 的 物体 和 各 种 设施 中 ,并 与 
互联 网 连接 。 


2. 统一 的 数据 中 心 
数据 中 心 是 景区 信息 资源 数据 库 的 存储 中 心 .管理 服务 中 心 和 数据 交换 中 心 。 
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2-10 旅游 大 数据 信息 化 平台 


3. 信息 管理 平台 

旅游 景区 信息 管理 平台 是 最 重要 的 核心 平台 ,要 能 实现 资源 监测 .运营 管理 、 游 客服 务 
等 功能 ,包括 : 

(1) 地 理 信息 系统 (GIS) 。 同 时 将 多 媒体 技术 ,数字 图 像 处 理 、 网 络 远程 传输 .卫星 定 位 
导航 技术 和 遥感 技术 有 机 地 整合 到 一 个 平台 上 。 

(2) 旅游 电子 商务 平台 和 电子 门禁 系统 。 

(3) 景区 门户 网 站 和 办 公 自 动 化 系统 。 

(4) 高 峰 期 游客 分 流 系统 。 高 峰 期 游客 分 流 系统 可 以 均衡 游客 分 布 ,缓解 交通 拥堵 , 减 
少 环境 压力 ,确保 游客 的 游览 质量 。 景 区 可 以 通过 预定 分 流 .门禁 分 流 和 交通 工具 实现 三 级 
分 流 , 这 其 中 要 采用 RFID 全 球 定位 .北斗 导航 等 技术 时 时 感知 游客 的 分 布 , 交 通 工具 的 位 
置 和 各 景点 游客 容量 ,并 借助 分 流 调 度 模型 对 游客 进行 实时 分 流 。 

(5) 其 他 配套 系统 。 包 括 规 划 管 理 系统 ,资源 管理 系统 、 环 境 监 测 系 统 、 智 能 监控 系统 、 
LED 信息 发 布 系统 、 多 媒体 展示 系统 、 网 络 营销 系统 和 危机 管理 系统 等 。 


第 二 篇 ”大 数据 ,一 种 经 济 资源 


全 球 每 天 以 EB 为 单位 所 产生 的 多 元 化 数据 ,正在 成 为 一 种 巨大 的 经 济 资 
源 ,将 带 来 全 新 的 创新 、 创 业 方 向 .商业 模式 和 投资 机 会 。 正 像 阿 里 巴巴 董事 局 
主席 马云 所 指出 的 : 我 们 正在 经 历 从 IT( 信 息 技 术 ) 时 代 到 DT( 数 据 技 术 ) 时 代 
的 发 展 , 数 据 的 价值 被 逐渐 发 现 , 未 来 制造 业 的 最 大 能 源 不 是 石油 ,而 是 数据 。 

从 数据 到 经 济 资源 ,还 需要 实现 对 数据 中 的 隐私 保护 ,才能 够 成 为 可 用 数 
据 。 从 经 济 资源 到 创造 绝对 的 经 济 价 值 , 则 需要 实现 数据 的 标准 化 并 提升 数据 
质量 ,从 而 实现 数据 的 开放 和 共享 。 如 果 把 大 数据 比 做 “新 型 石油 ”, 我 们 还 处 
于 石油 的 勘探 和 开采 期 。 


> 数据 价值 与 隐私 博大 


二 
二 


随 着 新 一 代 信 息 技术 的 发 展 , 数 据 时 代 正 在 来 临 , 我 们 周围 的 一 切 正在 被 数据 定义 。 数 
据 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 在 与 我 们 切身 相关 
的 衣食 、 住 . 行 等 方面 ,大 数据 对 生活 方式 的 改变 显而易见 ,每 天 人 们 都 会 通过 使 用 计算 机 、 
手机 .GPS 等 设备 产生 以 十 亿 计 的 海量 信息 ,这 些 相互 作用 的 信息 从 根本 上 改变 着 世界 原 
本 的 面貌 。 据 统计 ,目前 大 数据 所 形成 的 市 场 规模 为 530 亿美 元 左右 。 在 数据 大 爆炸 下 ,如 
何 挖掘 这 些 数 据 , 也 面临 着 技术 与 商业 的 双重 挑战 。 

对 消费 者 .公司 和 政府 机 构 来 说 ,数据 安全 与 隐私 保护 问题 由 来 已 久 。 互 联网 、. 物 联网 
技术 的 发 展 使 数据 的 获取 传输、 共享 更 加 便利 ,数据 总 量 也 以 指数 倍增 加 。 人 们 在 离 不 开 
互联 网 、 离 不 开 个 性 定制 服务 、 离 不 开 Facebook( 脸 书 ) 和 微 信 的 同时 ,对 数据 隐私 的 安全 疑 
问 和 要 求 则 越 来 越 严重 。 


3.1 数据 的 经 济 属性 


个 经 济 社会 都 面临 着 很 多 的 经 济 问题 ,西方 经 济 学 认为 ,任何 社会 ,不 论 它 依循 何 种 
社会 经 济 制度 进行 运作 ,也 不 论 它 处 在 什么 年 代 , 其 经 济 问 题 都 源 于 一 个 基本 的 经 济 事实 或 
矛盾 , 即 人 类 欲望 的 无 限 性 和 满足 欲望 的 资源 的 稀缺 性 ,这 一 矛盾 ,也 是 经 济 学 产生 的 根源 。 
资源 具有 有 限 性 和 稀缺 性 ,资源 的 自然 丰 度 .时 空 分 布 等 资源 豪 赋 的 差异 以 及 资源 的 供求 关 
系 ,共同 决定 着 资源 的 价值 。 美 国 经 济 学 家 汤姆 。 泰坦 伯 格 (Tom Tietenberg) 指 出 “资源 稀 
缺 性 越 强 ,资源 的 价值 量 就 越 大 。”? 

所 谓 经 济 资源 ,必然 具备 有 用 性 和 稀缺 性 ,有 用 性 是 资源 之 所 以 为 资源 的 依据 ,稀缺 性 
是 经 济 资源 之 所 以 为 经 济 资源 的 前 提 , 而 能 否认 识 和 利用 这 种 稀缺 的 有 用 性 则 尚 须 依 赖 于 
一 定 的 知识 、 技 术 和 经 济 条 件 , 因 此 经 济 资源 通常 被 定义 为 具有 稀缺 性 且 能 带 来 效用 的 财 
富 , 是 人 类 社会 经 济 体系 中 各 种 经 济 物品 的 总 称 。 


3.1.1 经 济 物品 与 经 济 资源 


1. 经 济 物品 
人 类 的 生存 与 发 展 , 离 不 开 形形色色 的 物品 , 广 妆 的 土地 ,充裕 的 阳光 以 及 作为 生命 之 





@@ 汤姆 * 泰坦 伯 格 . 环境 与 自然 资源 经 济 学 [Mj]. 北京 : 经 济 科学 出 版 社 ,2003. 
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源 的 水 ,都 是 大 自然 赋予 人 类 的 基本 生存 条 件 。 同 时 人 类 也 在 不 断 生产 出 各 式 各 样 的 物品 ， 
既 有 能 够 满足 人 类 各 种 需要 的 物品 ,如 房子 汽车、 衣服 、 食 品 等 ,也 在 制造 着 为 人 类 带 来 各 
种 麻烦 的 物品 ,如 垃圾 、 汽 车 尾气 等 。 从 经 济 学 的 角度 来 看 ,可 以 把 与 人 类 生存 和 发 展 息 息 
相关 的 物品 分 为 三 类 , 即 自由 物品 、 经 济 物品 和 有 害 物品 ,如 表 3-1 所 示 。 





表 3-1 物品 分 类 
物品 经 济 学 说 明 特 ”点 举例 
| 一 取 之 不 尽 ,用 之 不 竟 "， 对 人 类 有 
自由 物品 et 用 而 且 价 格 为 零 , 因 此 通常 不 存在 | 阳光 ,空气 等 
山 供求 双方 形成 的 买卖 市 场 





指 人 类 必须 付出 相应 代 | 有 用 性 ; 人 们 获得 时 通常 都 要 花费 


经 济 物品 “| 价 才 能 够 得 到 的 有 用 | 代价 ; 经 济 物品 相对 于 自由 物品 来 ed 














六 一 定 是 种 沁 的 | 物质 能源 .信息 等 
指 人 类 必须 付出 相应 代 垃圾 、 侍 垢 和 汽车 尾 
有 害 物品 价格 为 负 ; 卖 者 需要 向 买 者 付费 
”| 价 才能 够 消除 的 物品 地 RN | 沁 和 


经 济 物品 也 叫 稀缺 物品 ,是 指 人 类 必须 付出 相应 代价 才能 够 得 到 的 有 用 物品 ,如 房子 、 
汽车 ,粮食 等 ,社会 各 行 各 业 利 用 频谱 的 各 种 设备 、 服 务 也 是 经 济 物品 ,例如 卫星 、 雷 达 、 通 信 
服务 等 。 这 类 物品 的 共同 特点 是 有 一 定 的 市 场 价格 , 即 必须 是 借助 生产 资源 通过 人 类 加 工 
出 来 的 物品 。 

经 济 物品 的 第 一 个 特点 是 有 用 性 。 第 二 个 特点 是 人 们 获得 时 通常 都 要 花费 代价 。 第 三 
个 特点 是 经 济 物品 相对 于 自由 物品 来 说 一 定 是 稀缺 的 。 人 的 欲望 是 无 限 的 ,但 是 人 类 面临 
的 经 济 物品 是 有 限 的 ,这 两 者 构成 了 一 对 了 矛盾, 即 经 济 物品 的 稀缺 性 。 经 济 物品 的 第 四 个 特 
点 是 价格 为 正 ,价格 为 正 的 物品 在 市 场 交易 时 ,通常 是 买方 向 卖方 支付 代价 。 

2. 经 济 资源 

经 济 资源 又 叫 稀缺 资源 或 生产 要 素 , 是 指 那些 用 于 生产 商品 或 提供 服务 所 必须 投入 的 
物品 。 一 般 而 言 , 人 类 在 物质 产品 的 生产 活动 中 ,都 需要 投入 必要 种 类 与 数量 的 经 济 资源 ， 
例如 在 汽车 的 生产 过 程 中 ,需要 投入 资本 设备 、 人 的 劳动 土地 等 自然 资源 ,企业 家 的 经 营 管 
理 才 能 、 知 识 和 技术 、 公 共产 品 等 ,这 些 经 济 资源 或 生产 要 素 通 常 都 是 不 可 或 缺 的。 

(1) 自然 资源 。 如 土地 、 矿 藏 森 林 、 陆 地 ,海洋 ,河流 等 ,总 体 上 即 指 大 自然 赋予 人 类 的 
一 切 有 助 于 进行 生产 活动 的 自然 条 件 。 但 必须 指出 ,被 改造 过 的 沙漠 和 荒山 不 属于 经 济 学 
中 所 说 的 自然 资源 的 范畴 ,因为 投入 的 劳动 和 资本 已 经 改变 了 它 的 自然 条 件 。 

(2) 资本 。 马 克 思 说 “资本 是 能 够 带 来 剩余 价值 的 价值 ”, 这 个 定义 非常 准确 。 资 本 
包括 物质 资本 和 人 金融 资本 ,前 者 如 机 器 、 厂 房 等 ,后 者 如 有 价 证 券 、 货 币 等 。 也 可 以 划分 
为 有 形 资本 和 无 形 资本 ,前 者 如 机 器 .厂房 有 价 证 券 和 货币 等 ,后 者 如 专利 .商标 和 人 力 

(3) 劳动 。 是 指 在 生产 过 程 中 ,人 类 自身 所 做 出 的 贡献 ,是 脑力 劳动 和 体力 劳动 的 
总 称 。 

劳动 者 的 技能 、 受 教育 程度 .事业 心 等 因素 影响 劳动 的 质量 ,劳动 者 的 劳动 时 间 和 劳动 
效率 决定 劳动 的 数量 ,所 以 劳动 是 指 劳动 者 付出 的 数量 和 质量 的 有 机 结合 。 劳 动 是 创造 价 





值 的 手段 之 一 ,因此 每 一 个 人 都 珍惜 自己 的 劳动 ,都 希望 通过 自己 的 劳动 换取 别人 的 劳动 。 
所 以 , 尽 可 能 少 地 用 自己 的 劳动 换取 尽 可 能 多 的 他 人 劳动 (市 场 上 的 产品 和 服务 ) ,是 劳动 者 
的 习惯 行为 和 追求 的 目标 。 在 市 场 经 济 条 件 下 ,劳动 者 用 自己 的 工作 换 来 的 报酬 ,就 是 市 场 
对 劳动 者 付出 的 劳动 的 一 种 估价 。 

(4) 企业 家 才能 。 是 指 企业 家 特有 的 个 人 素质 ,其 作用 是 : 组 织 协调 其 他 要 素 进行 生 
产 ; 寻求 和 发 现 新 的 商业 机 会 ; 引进 新 的 生产 技术 或 发 明 ; 引导 和 带动 企业 进行 技术 、 市 场 
和 制度 等 方面 的 创新 。 

在 现代 市 场 经 济 中 ,企业 家 是 企业 的 灵魂 ,是 社会 生产 的 组 织 者 和 领导 者 。 企 业 家 通过 
经 营 管理 企业 为 社会 创造 财富 ,以 此 增进 社会 财富 和 人 类 福利 ,从 而 推动 社会 的 进步 。 从 根 
本 上 来 看 ,企业 家 是 研究 ,发现 .引导 并 设法 满足 社会 经 济 生活 中 经 济 主体 对 经 济 物品 和 经 
济 资源 的 需求 的 人 们 。 企 业 家 通过 自己 的 聪明 才智 研究 .发 现 .引导 这 些 需 求 并 努力 加 以 满 
足 ,从 而 为 社会 创造 财富 。 特 别 需 要 说 明 的 是 经 济 学 上 所 说 的 企业 家 不 是 一 种 职务 ,更 不 是 
一 种 称谓 ,而 是 代表 着 企业 家 经 营 管理 方面 的 素质 。 

(5) 知识 。 也 包括 技术 ,是 人 类 心智 中 积累 下 来 的 非 物质 财富 ,是 人 类 对 客观 世界 及 其 
规律 认识 能 力 的 总 和 。 

人 类 社会 自 产生 以 来 积累 下 来 的 知识 存量 决定 了 社会 现在 一 年 能 够 创造 出 多 少 物质 财 
富 和 精神 财富 。 知 识 包括 社会 科学 知识 和 自然 科学 知识 ,后 者 中 包含 技术 。 可 以 说 ,没有 知 
识 , 人 类 社会 就 无 法 组 织 生产 ,知识 越 多 ,人 类 社会 在 一 定时 期 内 生产 的 物质 产品 和 劳务 就 
越 多 。 

(6) 公共 产品 。 是 指 在 消费 上 不 具有 排他 性 和 竞争 性 的 产品 ,例如 路 灯 、 灯 塔 ` 法 律 抽 
度 等。 

经 济 学 家 认为 ,最 重要 的 公共 产品 是 制度 ,制度 也 包括 法 律 在 内 。 公 共产 品 一 般 由 政府 
来 提供 。 这 是 因为 公共 产品 的 特点 决定 了 企业 无 法 专门 生产 路 灯 和 灯塔 等 公共 产品 ,否则 
企业 的 收益 无 法 得 到 保障 ,企业 就 不 能 长 久 存在 。 其 他 如 国防 .军队 ,警察 监狱 等 也 是 一 种 
公共 产品 。 政 府 提供 它 使 得 每 个 人 可 以 不 做 亡国 奴 ,能 在 良好 的 社会 治安 条 件 下 生存 ,因此 
提高 人 们 的 生活 质量 。 由 此 看 来 ,任何 社会 在 组 织 生产 时 ,都 要 投入 政府 生产 的 公共 产品 这 
种 生产 要 素 ,作为 报酬 ,使 用 公共 产品 的 经 济 主体 就 应 该 向 政府 纳税 。 

以 上 6 种 经 济 资源 是 人 类 社会 组 织 生产 的 物质 基础 ,也 是 现代 市 场 经 济 运行 的 基本 保 
证 。6 种 资源 互相 配合 ,共同 发 挥 作用 ,生产 出 各 种 产品 满足 社会 的 需求 。 

3. 经 济 资源 与 经 济 物品 的 关系 

经 济 资源 和 经 济 物品 在 语义 上 有 着 明显 的 区 别 。 在 谈论 经 济 资源 的 时 候 , 往 往 是 将 其 
作为 某 一 类 经 济 物品 的 集合 ,每 一 种 经 济 资源 实际 上 又 可 能 包含 成 千 上 万 种 经 济 物品 , 例 
如 ,石油 和 石英 是 不 同 的 经 济 物品 ,但 都 属于 矿产 资源 或 物质 资源 或 自然 资源 的 范畴 。 经 济 
资源 通常 被 定义 为 具有 稀缺 性 且 能 带 来 效用 的 财富 ,是 人 类 社会 经 济 体系 中 各 种 经 济 物品 
的 总 称 。 

进一步 研究 经 济 资源 与 经 济 物品 的 关系 ,可 以 得 出 : 尚未 进入 人 类 社会 经 济 体系 的 经 
济 资源 只 是 自然 界 体系 中 的 客观 存在 ,只 是 经 济 资源 的 潜在 形态 ,或 潜在 的 经 济 资 源 ,例如 ， 
未 经 人 类 开发 的 土地 ,频谱 ,信息 等 。 只 有 在 一 定 的 知识 .技术 和 经 济 条 件 下 ,潜在 的 经 济 次 
源 才 有 可 能 被 纳入 人 类 社会 经 济 体系 之 中 , 变 为 现实 的 经 济 资源 。 经 济 资源 并 非 指向 经 济 
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物品 本 身 , 而 是 经 济 物品 中 相对 于 人 类 社会 而 言 的 有 用 性 , 亦 即 人 类 社会 经 济 体系 在 一 定 的 
知识 .技术 和 经 济 条 件 下 ,根据 自身 需要 而 开发 出 来 的 附着 于 物品 之 上 的 使 用 价值 ,使 用 价 
值 同 其 物质 载体 密 不 可 分 ,经 济 物品 只 是 经 济 资源 的 物质 载体 ,一 种 物品 可 承载 多 种 资源 功 
能 ,一 种 资源 功能 可 由 多 种 物品 所 承载 。 


3.1.2 数据 信息 转化 为 经 济 资源 


数据 本 身 不 具备 物质 的 实体 ,也 不 具有 独立 的 经 济 价值 ,但 是 数据 是 信息 的 载体 ,信息 
是 有 背景 的 数据 ,经 过 人 类 的 归纳 和 整理 .最 终 呈现 规律 的 信息 则 是 “知识 ”"。 因 而 信息 资源 
可 以 被 理解 为 用 以 指引 人 类 社会 经 济 活动 的 载 信 物质 或 载 信 和 能量 。 大 数据 可 以 被 看 做 依靠 
信息 技术 支持 的 信息 群 。 

从 社会 宏观 角度 根据 数据 的 产生 主体 可 以 将 数据 概括 分 为 三 类 。 

1. 政府 数据 

各 级 政府 各 个 机 构 拥 有 海量 的 原始 数据 ,构成 社会 发 展 与 运行 的 基础 ,包括 形形色色 的 
环保 ,气象 .电力 等 生活 数据 ,道路 交通 自来水、 住房 等 公共 数据 ,安全 海关、 旅游 等 管理 数 
据 , 教 育 . 医 疗 \ 信 用 及 金融 等 服务 数据 。 在 具体 的 政府 单一 部 门 里 面 无 数 数据 固化 而 没有 
产生 任何 价值 ,如 果 让 这 些 数据 流动 起 来 ,综合 分 析 并 有 效 管 理 , 将 产生 巨大 的 社会 价值 和 
经 济 效益 。 

2, 企业 数据 

企业 离 不 开 数 据 支 持 有 效 决策 ,只 有 通过 数据 才能 快速 发 展 ,实现 利润 ,维护 客户 ,传递 
价值 ,支撑 规模 ,增加 影响 ,手动 杠杆 , 带 来 差异 ,服务 买 家 ,提高 质量 ,节省 成 本 ,扩大 吸引 ， 
打败 对 手 , 开 拓 市 场 。 企 业 需 要 大 数据 的 帮助 才能 对 快速 膨胀 的 消费 者 群体 提供 差异 化 的 
产品 或 服务 ,实现 精准 营销 。 网 络 企业 应 该 依靠 大 数据 实现 服务 升级 与 方向 转型 ,传统 企业 
面临 无 处 不 在 的 互联 网 压力 ,同样 必须 谋求 变革 ,实现 融合 不 断 前 进 。 

3. 个 人 数据 

每 个 人 都 能 通过 互联 网 建立 属于 自己 的 信息 中 心 ,积累 .记录 采集、 储存 个 人 的 一 切 大 
数据 信息 。 根 据 相关 法 律 规定 ,经 过 本 人 亲自 授权 ,所 有 个 人 相关 信息 将 转化 为 有 价值 的 数 
据 ,被 第 三 方 采集 ,可 以 快速 处 理 , 获 得 个 性 化 的 数据 服务 。 通 过 信息 技术 使 得 各 种 可 穿戴 
设备 ,包括 植 人 的 各 种 芯片 都 可 以 通过 感知 技术 获得 个 人 的 大 数据 ,包括 但 不 限于 体温 、 心 
率 、 视 力 各 类 身体 数据 以 及 社会 关系 、 地 理 位 置 、 购 物 活动 等 各 类 社会 数据 。 个 人 可 以 选择 
将 身体 数据 授权 提供 给 医疗 服务 机 构 , 以 便 监测 出 当前 的 身体 状况 ,制定 私人 健康 计划 ; 还 能 
把 个 人 金融 数据 授权 给 专业 的 金融 理财 机 构 ,以便 制定 相应 的 理财 规划 并 预测 收益 。 当 然 国 
家 有 关 部 门 还 会 在 法 律 范围 内 经 过 严格 程序 进行 预防 监控 ,实时 监控 公共 安全 ,预防 犯罪 。 

数据 经 济 价值 的 形成 过 程 中 ,需要 将 具有 经 济 属性 的 经 济 物品 , 即 原始 数据 通过 技术 和 
分 析 的 开发 转变 为 可 创造 经 济 价值 的 经 济 资 源 , 即 信息 资源 。 劳 动力 资本、 技术 等 开发 投 
入 与 数据 资源 可 转化 的 经 济 价值 正 相关 ,也 是 数据 资源 产生 经 济 价值 发 挥 经 济 效益 的 驱动 
要 素 。 

如 图 3-1 所 示 为 数据 转化 为 经 济 资源 的 过 程 。 

其 中 个 人 的 大 数据 严格 受到 法 律 保护 ,其 他 第 三 方 机 构 必 须 按 法 律 规定 授权 使 用 ,数据 
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劳动 力 、 资 本 、 知 识 和 技术 人 类 社会 经 济 体系 
(采集 、 存 储 、 分 析 …… 





经 济 资源 的 潜在 形态 


原始 数据 


| 经 济 资 源 是 经 济 物品 中 相对 人 类 而 言 的 有 用 性 ， 
是 附着 于 经 济 物品 上 的 使 用 价值 


图 3-1 数据 转化 为 经 济 资源 的 过 程 


必须 接受 公开 透明 全 面 监 管 ; 采集 个 人 数据 应 该 明确 按照 国家 立法 要 求 ,由 用 户 自己 决定 
采集 内 容 与 范围 ; 数据 只 能 由 用 户 明确 授权 才能 严格 处 理 。 

同时 ,个 人 所 产生 的 数据 种 类 最 为 丰富 ,其 商业 价值 高 但 密度 低 的 特征 也 最 为 明显 ,也 
是 当前 通过 广告 投放 领域 实现 大 数据 变现 的 主要 数据 来 源 。 大 量 个 体 所 产生 的 涉及 隐私 的 
数据 之 所 以 受到 关注 ,不 在 于 个 人 隐私 本 身 , 而 在 于 数据 本 身 所 具有 的 经 济 资源 价值 。 不 论 
是 数据 的 获得 方 还 是 应 用 方 , 获 取 、 存 储 、 分 析 数 据 的 目的 不 在 于 挖掘 个 体 的 隐私 信息 ,而 是 
通过 个 体 的 多 维 数据 重 构 消费 者 立体 模型 。 如 果 从 个 人 数据 维度 和 群体 数据 维度 来 分 析 ， 
数据 的 主要 应 用 体现 如 图 3-2 所 示 。 


个 人 数据 
(个 性 化 定制 ) 


卫生 医疗 
经 济 状况 
位 置 动态 
社交 信 | 
工作 信息 
学 习 经 历 
家 庭 信 息 
基本 信息 














群体 数据 
一 (趋势 预测 ) 


图 3-2 个 人 数据 的 应 用 维度 


整体 来 看 ,大 数据 应 用 尚 处 于 从 热点 行业 领域 向 传统 领域 渗透 的 阶段 。 中 国信 息 通信 
研究 院 的 调查 显示 ,大 数据 应 用 水 平 较 高 的 行业 主要 分 布 在 互联 网 ,电信 ,金融 行业 ,一 些 传 
统 行业 的 大 数据 应 用 发 展 较为 缓慢 ,批发 零售 业 甚至 有 超过 80% 的 企业 并 没有 大 数据 应 用 
计划 , 远 低 于 整体 平均 水 平 " 。 


Q@ CAICT 中 国信 通 院 . 大 数据 白皮书 (2016 年 )LR]. 2016. 
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大 数 燃 : 引爆 新 的 价值 点 


3.2 大 数据 时 代 的 个 人 隐私 


2013 年 6 月 ,英国 ( 卫 报 ) 和 美国 (华盛顿 邮 报 ) 爆 出 的 “棱镜 门 事 件 ”, 指 美国 国家 安全 局 
(NSA) 和 联邦 调查 局 (FBD 于 2007 年 启动 了 一 个 代号 为 “棱镜 ”的 秘密 监控 项 目 ,直接 进入 美 
国 网 际 网 路 公司 的 中 心服 务 器 里 挖掘 数据 ,收集 情报 ,包括 微软 ,雅虎 .谷歌 .苹果 等 在 内 的 9 
家 国际 网 络 巨头 皆 参 与 其 中 。“ 校 镜 ” 监 控 的 主要 信息 有 10 类 : 电邮 即时 消息 .视频 .照片 \ 存 
储 数据 .语音 聊天 文件 传输 ,视频 会 议 、 登 录 时 间 和 社交 网 络 资料 ,这 些 数据 细节 使 得 NSA 几 
乎 可 以 实时 监控 一 个 人 正在 进行 的 所 有 网 络 搜 索 内 容 、 位 置信 息 ,社交 圈 、 消 费 记录 等 ?。 

“棱镜 门 事 件 加 剧 了 人 们 对 大 数据 安全 与 隐私 的 担忧 ,我 们 所 有 人 都 在 以 一 种 前 所 未 
有 的 速度 衍生 新 的 数据 ,例如 在 中 国 ,人 们 在 网 络 媒体 社会 每 分 钟 都 产生 着 大 量 的 各 类 数 
据 ,如 图 3-3 所 示 。 
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图 3-3 中 国 社会 化 媒体 表现 
(数据 来 源 : 199IT 互联 网 数据 中 心 D) 


@ 揭秘 : 棱镜 计划 [OL]. 凤凰 网 资讯 ,2013. http://news. ifeng. com/world/special/sndxiemi/content-4/detail__ 
2013_06/13/26366771_0. shtml. 

回 CIC: 60 秒 看 中 国 社 会 化 媒体 表现 一 一 信息 图 LOL]. 199IT 互联 网 数据 中 心 ,2016. http://www. 199it. com/ 
archives/537121. html. 


Re 第 3 章 数据 价 值 与 隐私 傅 蛮 人 

人 们 在 互联 网 上 的 一 言 一 行 ,网 站 都 会 通过 Cookie 来 搜索 并 获取 相关 的 浏览 数据 。 
Cookie 是 在 HTTP 下 ,由 Web 服务 器 保存 在 用 户 浏览 器 (客户 端 ; 上 的 小 文本 文件 , 它 可 以 
包含 有 关 用 户 的 信息 。 淘 宝 知道 用 户 的 购物 习惯 \ 腾 讯 知道 用 户 的 好 友 联 络 情况 、 百 度 知道 
用 户 的 检索 习惯 和 兴趣 点 等 。 

在 100TB 量 级 以 上 的 大 数据 时 代 , 信 息 安全 与 传统 安全 相 比 ,不 仅 是 一 个 技术 问题 ,也 
是 一 个 社会 学 问题 ,大 数据 的 隐私 保护 与 安全 变 得 更 加 复杂 ,也 面临 更 多 挑战 。 在 大 数据 环 
境 下 既 要 确保 信息 共享 的 安全 性 ,同时 为 用 户 提供 更 为 精细 的 数据 共享 安全 控制 策略 等 问 
题 也 值得 深入 研究 。 

这 里 存在 着 一 个 与 人 们 一 般 认 为 的 因果 关系 相反 的 事实 : 数据 时 代 引 发 各 类 隐私 安全 
隐患 的 根本 原因 不 是 隐私 本 身 , 而 是 包含 隐私 的 各 类 数据 所 蕴含 的 经 济 价值 。 以 BAT( 百 
度 公司 Baidu、 阿 里 巴巴 集团 Alibaba、 腾 讯 公司 Tencent) 为 代表 的 互联 网 企业 在 建立 大 数 
据 平台 的 过 程 中 ,采集 和 分 析 的 对 象 不 是 某 个 人 的 隐私 信息 ,而 是 各 类 信息 一 同 描绘 出 的 一 
种 趋势 ,可 以 是 精准 定位 的 个 体 用 户 需 求 ,也 可 以 是 宏观 市 场 的 趋势 预测 。 因 此 ,大 数据 时 
代 隐 私 风险 的 实质 是 数据 自身 价值 与 个 人 隐私 保护 的 博弈 决策 。 


3.2.1 隐私 的 数据 化 


在 互联 网 时 代 , 如 果 把 数据 作为 一 种 经 济 资源 ,个 体 作为 数据 的 主要 生产 者 之 一 ,所 产 
生 的 大 数据 中 包含 大 量 的 个 人 隐私 ,并 且 这 些 由 大 量 个 人 产生 的 数据 也 是 商家 和 企业 最 为 
关注 的 .具有 商业 价值 的 数据 。 举 例 来 说 ,一 个 标准 的 美国 上 班 族 每 年 可 以 贡献 180 万 MB 
的 数据 量 ,平均 每 天 则 有 约 5000MB, 这 其 中 包括 下 载 的 电影 文档、 电邮 以 及 这 些 数据 通过 
移动 或 非 移动 互联 网 传播 时 所 产生 的 附加 数据 量 ,个 人 隐私 就 分 散在 数据 化 的 个 人 信息 中 ， 


如 图 3-4 所 示 。 
神 览 /播放 /点击 
DA 
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App 


图 3-4 用 户 在 线 行为 数据 全 记录 


以 个 人 用 户 的 在 线 行为 为 例 , 个 人 浏览 网 页 ,搜索 关键 词 、 位 置信 息 、 照 片 分 享 等 行为 数 
据 都 会 以 Cookie 的 形式 被 全 部 记录 下 来 ,所 涉及 的 个 人 信息 和 偏好 隐私 也 将 蕴含 其 中 。 这 
些 数据 中 “你 ”的 信息 被 保存 在 各 种 数据 库 中 ,随时 可 以 被 商家 拿 来 识别 “你 ”。 个 人 的 隐私 
分 散在 无 数 个 微小 的 数据 单元 之 中 ,这 就 好 像 一 套 积木 ,一 块 积木 不 能 给 予 我 们 什么 信息 ， 
但 是 随 着 积木 块 数 的 增加 ,整体 的 图 景 也 就 清晰 了 。 

目前 ,各 国 (地 区 ) 理 论 和 立法 中 “数据 ”与 “信息 ”两 个 概念 交互 使 用 。 具 体 而 言 , 在 个 人 
信息 保护 立法 中 ,欧盟 及 其 成 员 国 大 多 以 “数据 ”来 表述 其 立法 保护 对 象 。 如 欧盟 议会 于 
1995 年 通过 的 《数据 保护 指令 》(The data protection directive) ,英国 的 《41998 年 数据 保护 
法 (Date Protection Act 1998) 等 0。 





@ 梅 夏 英 . 数据 的 法 律 属性 及 其 民法 定位 [J]. 中 国 社会 科学 ,2016.(9): 164-183. 


1995 年 ,欧盟 出 台 的 隐私 法 例 将 “个 人 资料 ”定义 为 可 以 直接 或 间接 识别 一 个 人 的 信 
息 。 很 显然 ,当时 立法 者 考虑 的 是 那些 带 有 身份 标识 号 的 文件 资料 之 类 的 东西 ,这 些 标识 号 
就 好 像 人 的 姓名 ,而 立法 者 们 希望 它们 可 以 得 到 保护 。 

2012 年 12 月 28 日 ,全 国人 民 代表 大 会 常务 委员 会 通过 了 《关于 加 强 网 络 信息 保护 的 
决定 》, 其 中 规定 :“ 国 家 保护 能 够 识别 公民 个 人 身份 和 涉及 公民 个 人 隐私 的 电子 信息 ,任何 
组 织 和 个 人 不 得 窃取 或 者 以 其 他 非法 方式 获取 公民 个 人 电子 信息 ,不 得 出 售 或 者 非法 向 他 
人 提供 公民 个 人 电子 信息 。? 实 施 这 个 决定 ,需要 在 操作 层面 上 完善 与 之 对 应 的 法 律 体系 ,为 
数据 保护 法 律 体 系 的 完善 提供 理论 支持 。 

2013 年 2 月 1 日 ,我 国 首 个 个 人 信息 保护 国家 标准 (信息 安全 技术 公共 及 商用 服务 
信息 系统 个 人 信息 保护 指南 ) 正 式 实施 ,该 指南 比较 全 面 地 规范 了 个 人 信息 处 理 的 全 流程 活 
动 ,规定 了 个 人 敏感 信息 在 收集 和 利用 之 前 须 获得 个 人 信息 主体 明确 授权 。 


3.2.2 数据 的 商业 化 


大 数据 作为 经 济 资源 ,其 价值 的 体现 不 仅 在 于 对 数据 本 身 列 含 的 信息 进行 分 析 、 挖 掘 ， 
产生 有 效 的 统计 结果 或 个 人 偏好 结论 ,从 而 实现 其 经 济 资源 的 转化 。 同 时 ,数据 本 身 也 可 以 
被 二 次 使 用 或 被 私下 买卖 ,转变 为 直接 的 经 济 利益 。 

2012 年 12 月 成 立 的 中 关 村 大 数据 产业 联盟 , 提出” 智库、 传播 .资本 "三 位 一 体 的 新 兴 
科技 服务 业 模 式 ,并 以 “让 天 下 数据 便捷 在 线 流通 ”为 宗旨 建立 了 数据 超市 ?, 为 数据 拥有 方 
和 需求 方 提供 数据 交易 平台 。 截 止 到 2016 年 9 月 2 日 ,完成 了 928 次 数据 流通 ,建立 了 435 
个 数据 项 目 , 数 据 内 容 近 60 万 。 

如 图 3-5 所 示 为 最 受 关注 的 流通 数据 。 


最 受 关注 数据 医 EE 泽 
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全 国 基站 信息 股票 数据 搜索 热 词 


图 3-5 最 受 关注 的 流通 数据 
大 数据 时 代 , 人 们 加 快 脚步 将 海量 用 户 数据 转换 成 有 用 的 知识 并 揭示 其 潜在 价值 ,这 个 
潜在 价值 更 多 的 时 候 通 过 对 数据 的 再 利用 不同 数据 的 重组 .数据 扩展 等 来 开发 二 次 使 用 价 
值 。 在 隐私 数据 化 后 ,这 个 过 程 中 必然 更 多 涉及 对 人 们 行为 习惯 、 消 费 习惯 \ 个 人 喜好 等 个 
人 隐私 的 挖掘 ,个 人 隐私 变换 成 现实 的 商业 利益 。 在 信息 时 代 , 个 人 的 隐私 变 得 有 利 可 图 ， 


@ https://hub. dataos. io/. 


第 3 章 数据 价值 与 隐私 博弈 


从 而 使 得 隐私 变 成 可 以 买卖 的 商品 ,隐私 也 就 具有 了 价值 的 特点 2。 
3.2.3 个 性 化 服务 的 博弈 


每 个 人 都 期 待 获得 个 性 化 服务 , 当 我 们 浏览 淘宝 网 后 再 去 打开 其 他 的 网 页 ,会 看 到 当前 
页 面 推送 了 我 们 刚才 在 淘宝 上 所 看 到 的 商品 的 广告 ,这 是 网 站 上 的 Cookie 对 我 们 行为 进行 
跟踪 的 结果 。 但 是 在 大 数据 时 代 , 想 要 获得 个 性 化 服务 ,就 一 定 会 在 某 种 程度 上 牺牲 自己 的 
隐私 。 

与 大 家 的 常规 想法 不 同 , 当 事情 涉及 广告 和 隐私 时 ,广告 商 并 不 在 意 我 们 在 做 什么 或 我 
们 想 要 什么 ,他 们 只 关心 一 件 事情 : 让 我 们 去 买 他 们 销售 的 东西 。 你 可 能 想 问 : 那 又 怎么 
了 , 谁 不 喜欢 在 寻找 一 件 特定 商品 时 正好 收 到 相关 广告 和 讯息 , 谁 不 想 要 在 临近 最 喜爱 的 商 
店 时 收 到 他 们 的 电子 优惠 券 呢 ? 

这 似乎 是 个 不 错 的 交易 : 只 要 舍弃 一 点 儿 私 人 信息 ,就 可 以 得 到 一 些 帮 你 省 钱 的 .有 用 
的 免费 服务 。 在 这 个 看 似 双赢 的 局 面 下 ,实际 上 是 用 户 用 自己 的 隐私 换 来 个 性 化 服务 并 给 
商家 带 来 巨大 的 利润 。 被 我 们 "免费 ”分享 的 信息 不 只 是 被 广告 商用 来 销售 商品 给 我 们 的 ， 
这 些 信息 也 被 Facebook 和 谷歌 (Google) 这 类 公司 以 及 其 他 各 种 商家 用 来 分 析 、 预 测 用 户 行 
为 ,从 而 发 家 致富 。 

当 你 在 使 用 电子 邮件 .社交 网 络 的 时 候 , 你 大 概 也 会 知道 你 的 信息 正在 被 记录 下 来 ,你 
发 表 的 言论 或 者 分 享 的 照片 .视频 等 都 决定 着 互联 网 运营 商 即将 向 你 推荐 什么 样 的 资源 和 
广告 ; 当 你 拿 着 iPhone 满 世 界 跑 的 时 候 , 苹 果 早 已 通过 定位 系统 把 你 的 全 部 信息 搜 风 在 自 
己 的 数据 库 里 ,利用 这 些 信 息 来 构建 地 图 和 交通 信息 等 ; 当 你 在 享受 着 视频 监控 带 来 的 安 
全 感 的 同时 , 别 忘 了 你 也 是 被 监控 的 一 分 子 , 你 的 一 举 一 动 都 会 暴露 在 镜头 下 面 ; 你 用 手机 
通话 时 ,运营 商 不 仅 知道 你 打 给 谁 , 打 了 多 久 , 还 知道 你 是 在 哪里 进行 的 通话 。 周 鸿 社 指 出 ， 
大 数据 时 代 可 以 不 断 采集 数据 , 当 看 起 来 是 碎片 的 数据 汇总 起 来 “每 个 人 就 变 成 了 透明 人 ， 
每 个 人 在 干什么 、 想 什么 ,云端 全 部 都 知道 .” 

大 数据 是 好 的 时 代 , 也 是 坏 的 时 代 : 如 果 免 费 检测 基因 的 公司 拿 到 了 个 人 的 健康 隐私 
数据 ,就 能 精准 地 推销 医药 产品 ,建立 点 对 点 的 商业 模式 ,这 对 公司 是 一 个 黄金 时 代 。 但 如 
果 大 数据 被 污染 了 ,也 就 是 说 ,数据 被 人 为 操纵 或 注入 虚假 信息 , 据 此 做 出 的 判断 就 会 误导 
人 们 。 在 大 数据 时 代 , 曾 经 在 全 世界 范围 内 达成 共识 的 “告知 与 许可 ”隐私 保护 政策 正面 临 
失效 。 

任何 技术 都 具有 两 面 性 ,大 数据 技术 也 是 这 样 。 随 着 企业 对 用 户 数据 无 限制 搜集 ,数据 
交易 ,数据 整合 使 得 企业 对 个 人 数据 的 挖掘 越 来 越 深 入 ,公民 隐私 泄露 的 问题 也 变 得 越 来 
越 不 能 被 忽视 。 关 于 个 人 信息 保护 的 立法 工作 一 直 处 于 进行 阶段 ,但 还 没有 跟 上 时 代 的 
发 展 变化 。 虽 然 在 大 数据 时 代 人 们 的 隐私 更 容易 暴露 ,但 是 不 能 因此 排斥 大 数据 ,而 是 
应 该 在 数据 挖掘 和 公民 隐私 之 间 找 到 一 个 平衡 点 ,最 大 限度 地 利用 大 数据 技术 来 便利 人 
们 的 生活 。 


@ 黄 成 鹏 . 大 数据 时 代 的 个 人 隐私 LD]. 华中 师范 大 学 ,2015. 
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3.3 旅游 天 数据 应 用 价值 


随 着 互联 网 移动 互联 网 、 物 联网 的 发 展 ,数据 蕴含 的 价值 也 在 增加 。 针 对 数据 价值 的 
利用 ,可 以 简单 地 分 为 以 下 三 个 层次 。 

(1) 数据 查询 。 从 海量 的 数据 中 快速 定位 到 目标 信息 。 

(2) 数据 统计 。 从 海量 的 数据 中 根据 不 同 的 维度 和 颗粒 度 快速 地 生成 统计 信息 。 

(3) 数据 挖掘 。 从 海量 的 数据 中 发 现 规律 和 关联 关系 来 辅助 决策 。 

三 个 层次 层 层 递 进 ,其 实 也 是 对 数据 利用 的 不 断 细 化 和 深入 。 旅 游 市 场 规模 的 扩大 也 
吸引 了 大 量 旅游 相关 主体 参与 享受 红利 ,旅游 企业 之 间 的 竞争 的 日 益 激烈 ,传统 旅游 实体 的 
经 营 方式 ,往往 由 于 过 度 依赖 自身 的 资源 而 忽略 消费 者 本 身 的 旅游 需求 ,经 营 具 有 盲目 性 、 
经 验 性 。 在 移动 互联 网 时 代 大 背景 下 ,游客 获得 信息 的 手段 和 效率 远 远 优 于 以 往 ,旅游 企 
业 、 景 区 之 间 如 何在 新 战线 上 提高 自身 品牌 影响 力 . 如 何 吸引 更 多 游客 .增强 游客 的 购买 性 、 
提升 游客 的 旅游 体验 成 为 新 常态 背景 下 的 旅游 行业 。 


3.3.1 数据 推动 旅游 行业 价值 流动 


旅游 行业 是 高 度 依赖 “信息 ”的 产业 , 正 是 “信息 ”造成 了 旅游 行业 的 价值 流动 。 如 果 说 
物 联网 与 云 计算 等 信息 技术 正在 重 构 现代 旅游 行业 ,那么 "大 数据 ”" 则 是 这 次 产业 升级 的 关 
键 。 大 数据 作为 新 兴 的 技术 手段 ,为 解决 以 上 问题 提供 了 新 思路 、 新 路 径 , 大 数据 应 用 主要 
集中 于 游客 洞察 与 服务 、 景 区 管理 两 个 方面 。 

1. 游客 洞察 与 服务 

全 面 深 入 地 了 解 游客 或 潜在 目标 客户 ,是 旅游 景区 做 好 景区 产品 营销 、 提 升 游客 体验 的 
重要 前 提 。 旅 游 时 游客 在 " 吃 , 住 , 行 、 游 . 购 、 娱 ”一 系列 旅游 行为 动作 的 过 程 中 ,通过 线 上 、 
线 下 等 各 种 渠道 留 下 游客 行为 痕迹 ,碎片 化 数据 ,将 这 些 数据 通过 不 同 路 径 ,不同 渠道 进行 
整合 汇聚 ,再 通过 大 数据 技术 ,可 以 从 多 维 数据 中 挖掘 出 对 旅游 景区 业务 运营 有 价值 的 信息 
点 ,具体 主要 体现 在 游客 来 源 分 析 、 游 客 口 碑 分 析 、 游 客 特征 分 析 、 游 客 行动 轨迹 分 析 等 
方面 。 

基于 对 游客 的 认 知 ,旅游 景区 可 以 有 针对 性 地 进行 线 上 、 线 下 营销 推广 ,并 根据 游客 偏 
好 配置 景区 相关 的 资源 ,提升 景区 的 服务 水 平 ,实现 “智慧 服务 ”。 

2. 旅游 景区 管理 

旅游 景区 有 着 地 域 面积 广 、 管 理 要 素 多 等 特点 ,传统 的 管理 方法 存在 景区 无 法 全 面 覆 
盖 、 管 理 效率 跟 不 上 旅游 市 场 的 快速 增长 等 问题 。 借 助 物 联 网 技术 ,利用 视频 .GPS 等 技术 
手段 搜集 各 类 数据 ,并 依托 大 数据 平台 进行 管理 ,完成 旅游 景区 各 类 要 素 的 数字 化 、 可 视 化 
管理 。 同 时 ,产生 的 各 类 运营 数据 ,经 过 分 析 , 指 导 旅 游 景区 的 建设 和 优化 ,实现 了 基于 数据 
的 “智慧 管理 ”。 

大 数据 不 仅 是 一 项 技术 手段 ,更 是 体现 量化 管理 的 一 种 思维 方式 ,其 应 用 的 思路 包括 数 
据 从 哪 来 和 数据 怎么 用 两 个 基本 问题 。 在 实际 的 大 数据 应 用 过 程 中 ,瓶颈 也 往往 在 于 “有 需 
求 没 数据 ?和 "有 数据 没 需求 ”两 个 基本 矛盾 点 ,无 法 实现 从 基础 数据 到 业务 应 用 的 价值 链 
闭环 。 
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旅游 景区 “智慧 管理 ”主要 体现 在 客流 量 监控 预警 及 分 析 、GPS 定位 数据 跟踪 分 析 、 森 
林 防 火 智 能 检测 等 方面 。 本 案例 以 某 景 区 大 数据 平台 建设 为 背景 ,着 重 阐述 数据 汇聚 "和 
“数据 应 用 ?两 个 方面 ,其 中 “数据 汇聚 ”介绍 从 数据 源 以 及 基础 平台 承载 的 方面 数据 应 
用 ”侧重 于 旅游 景区 “智慧 服务 ”和 “智慧 管理 ”两 个 应 用 链条 的 实现 思路 。 

数据 应 用 是 数据 价值 释放 的 最 终 环节 ,也 是 最 重要 的 环节 ,明确 数据 应 用 的 方向 决定 了 
整体 大 数据 解决 方案 的 实施 框架 和 思路 .是 大 数据 平台 建设 的 前 提 条 件 。 目 前 ,大 数据 应 用 
比较 成 熟 的 领域 集中 在 金融 .电信 、 互 联网 ,零售 等 行业 ,业务 应 用 方向 集中 于 营销 、 征 信 等 
方面 ,对 于 信息 化 程度 相对 滞后 的 旅游 行业 ,大 数据 应 用 更 多 地 继承 成 熟 行业 应 用 方向 , 即 
基于 对 “人 ”的 洞察 实现 多 类 型 的 应 用 。 同 时 ,旅游 行业 的 特点 使 得 其 对 “ 物 ” 的 管理 要 求 比 
较 高 。 

基于 大 数据 的 智慧 旅游 解决 方案 ,应 用 层面 集中 于 “人 的 洞察 "和 " 物 的 管理 ”两 个 层面 ， 
对 应 到 本 次 案例 的 “智能 服务 "和 "智慧 管理 ”。 


3.3.2 智能 服务 


旅游 作为 服务 行业 ,服务 品质 是 旅游 景区 的 核心 竞争 力 之 一 ,大 数据 分 析 作 为 技术 手 
段 , 可 以 通过 洞察 了 解 游客 特征 ,优化 服务 策略 ,也 可 以 整合 多 类 数据 ,开发 数据 产品 ,为 游 
客 提供 信息 服务 。 

1. 游客 来 源 分 析 

旅游 行业 的 市 场 竞争 往往 是 全 国 性 的 .区域 性 的 ,如 何 将 有 限 的 营销 宣传 成 本 有 效 地 转 
化 置换 为 客流 是 旅游 景区 急需 解决 的 课题 。“ 客 户 在 哪 ? 他 们 是 谁 ? 有 哪些 需要 特征 ?是 
做 好 宣传 推广 需要 回答 的 关键 问题 。 互 联网 和 电信 网 络 具有 全 域 覆 盖 的 属性 ,通过 大 数据 
技术 采集 景区 相关 的 数据 ,可 以 洞察 到 线 上 搜索 以 及 线 下 到 访 中 各 个 区 域 的 人 数 规模 ,指导 
旅游 景区 安排 线 下 资源 进行 定点 投放 ,针对 性 的 提高 使 得 营销 成 本 利用 更 为 高 效 , 客 源 地 游 
客 转 化 效果 也 相对 更 好 。 

通过 与 外 部 数据 资源 厂商 建立 合作 ,获得 全 国 范围 内 各 类 平台 的 潜在 游客 数据 ,其 中 主 
要 从 互联 网 数据 中 提取 到 LBS 用 户 定位 搜索 数 据 、 电 商 数据 、 社 交 数 据 等 ,获得 游客 的 旅 
行 意向 轨迹 。 与 电信 运营 商 合作 ,分 析 到 访 游客 的 区 域 归 届 信息 ,追溯 游客 的 旅行 轨迹 。 

整合 线 上 潜在 游客 归属 和 到 访 游客 的 归属 数据 ,可 以 构建 出 旅游 景区 的 游客 归属 地 分 
布地 图 ,并 以 此 探索 市 场 洼地 。 掌 握 了 客 源 分 布 的 同时 ,综合 客 源 地 的 经 济 发 展 情况 进行 宣 
传 推广 的 优先 级 区 分 ,从 开放 的 渠道 获得 区 域 经 济 发 展 水 平 .人均 GDP 等 数据 ,进行 客 源 地 
价值 细 分 .评估 消费 能 力 及 对 旅游 景区 所 能 带 来 的 潜在 营业 额 ,在 市 场 资源 投放 时 做 到 有 的 
放 矢 ,精准 的 宣传 可 以 大 幅 提升 客 源 市 场 的 转化 率 , 实 现 降 本 增 效 。 

2. 旅游 景区 口碑 分 析 

依托 强大 社交 网 络 和 资讯 获得 渠道 ,单个 游客 在 线 上 所 发 表 的 言论 ,在 条 件 适当 的 情况 
下 就 会 变 成 热点 事件 ,在 短 时 间 就 会 有 足够 大 的 覆盖 面 ,比如 “青岛 天 价 虾 “ 哈 尔 滨 天 价 鱼 ” 
等 事件 就 是 通过 社交 媒体 的 传播 ,对 当地 旅游 造成 了 极 负面 的 影响 。 

良好 的 口碑 是 景区 构建 品牌 、 确 保 客 流 的 重要 保障 ,通过 获取 全 网 数据 ,包括 论坛 、 贴 
吧 、 微 博 、 新 闻 等 网 站 数据 ,采用 网 络 文本 挖掘 技术 ,实时 监控 旅游 与 情 , 及 时 发 现 游客 负面 





~- 
41/ 
~ 


反馈 ,消除 或 改善 不 安全 或 游客 不 满意 的 项 目 和 产品 。 景 区 的 口碑 分 析 包 括 以 下 分 析 维度 。 

(1) 正 负面 评价 。 整 合 线 上 与 景区 相关 的 数据 ,通过 文本 分 析 ,识别 游客 在 景区 相关 描 
述 中 的 情绪 的 正 负 属 性 ,根据 正 负 比例 情况 判断 景区 网 络 口碑 。 

(2) 游客 负面 反馈 监控 。 通 过 线 上 数据 文本 挖掘, 识别 出 游客 主要 的 负面 反馈 关键 字 ， 
及 时 地 、 有 针对 性 地 改善 景区 服务 。 

(3) 游客 景区 评价 分 析 。 建 立 景区 设施 、 交 通 、 服 务 .价格 卫生 ,餐饮 等 6 个 主要 维度 ， 
通过 景区 自 建 的 手机 服务 平台 和 线 上 数据 分 析 , 获 得 游客 在 各 个 维度 下 的 评价 数据 ,从 而 有 
针对 性 地 进行 提高 。 

(4) 网 络 关注 度 。 根 据 搜索 数据 .媒体 报道 等 ,获得 旅游 区 域 热点 信息 、 同 区 域内 地 热 
门 旅游 景点 信息 ,指导 景区 的 宣传 推广 工作 。 

(5) 与 情 监控 。 监 控 各 主流 媒体 和 旅游 网 站 相关 的 资讯 报道 ,评估 各 个 报道 的 影响 力 ， 
做 到 对 景区 负面 消息 的 及 时 监控 和 响应 。 

3. 游客 特征 分 析 

根据 游客 的 诉求 开发 旅游 产品 设计 旅游 服务 ,是 为 游客 提供 优质 体验 的 关键 ,在 这 一 
环节 , 尽 可 能 多 地 了 解 游客 是 重要 前 提 , 游 客 特征 分 析 的 目标 就 是 借助 大 数据 ,更 多 地 了 解 
游客 各 方面 的 信息 ,并 把 这 些 信息 标签 化 ,支撑 景区 运营 。 

游客 特征 分 析 ,一 方面 通过 分 析 到 访 游客 的 结构 和 特征 ,掌握 旅游 景区 的 核心 客户 群体 
的 特征 ,并 以 此 为 基础 优化 景区 的 服务 能 力 ; 另 一 方面 ,通过 抓 取 线 上 与 景区 相关 的 数据 ， 
锁定 景区 的 潜在 目标 客户 群 ,再 通过 与 第 三 方 宣传 渠道 合作 ,实现 景区 的 精准 营销 。 

旅游 景区 引入 电信 运营 商 和 互联 网 平台 等 丰富 的 第 三 方 数据 资源 ,构建 全 面 洞察 线 上 、 
线 下 游客 特征 的 标签 体系 ,从 多 个 维度 洞察 包括 身份 属性 、 消 费 能 力 .行为 特征 、 偏 好 在 内 的 
多 类 信息 。 

1) 到 访 游客 分 析 

通过 与 电信 运营 商 合作 ,得 到 到 访 游客 的 特征 分 析 , 包 括 性 别 比例 .年 龄 分 布 .身份 画像 
等 多 类 个 体 属性 标签 ,也 包括 游客 的 驻 留 时 长 , 驻 留 主要 区 域 等 信息 ,在 数据 资源 合作 的 过 
程 中 ,所 有 的 数据 均 通 过 统计 数字 得 到 展现 ,并 不 锁定 到 某 一 个 独立 的 个 体 ,规避 了 个 人 隐 
私 泄露 的 风险 ,掌握 主要 到 访 游客 的 特征 ,可 以 有 针对 性 地 优化 景区 的 产品 和 服务 ,提升 游 
客体 验 。 

2) 线 上 潜在 目标 客户 分 析 

与 互联 网 数据 服务 提供 商 合作 ,跟踪 各 类 与 旅游 产品 相关 的 网 站 ,从 第 三 方 DMP 平台 
获得 特定 终端 用 户 的 浏览 数据 ,通过 搜索 关键 字 和 浏览 的 页 面 信息 ,掌握 该 终端 用 户 对 旅游 
景区 ,旅游 产品 ,价格 等 多 方面 的 偏好 数据 ,对 契合 度 较 高 的 潜在 客户 群体 ,进行 定向 的 景区 
广告 投 送 ,提高 线 下 游客 的 转化 率 。 

4. 景区 商户 评价 

考虑 到 旅游 行业 的 特殊 性 ,游客 在 景区 内 的 商户 消费 属于 低频 交易 行为 ,对 于 商户 而 
言 ,其 收入 结构 更 多 依赖 于 新 增 游客 的 一 次 性 消费 ,存量 消费 占 比 很 低 ,这 样 的 特征 导致 全 
国 各 地 的 景区 商户 频频 上 演 * 杀 客 "的 现象 。 商户 是 旅游 景区 的 重要 组 成 部 分 ,与 景区 在 对 
外 口碑 宣传 方面 是 利益 共同 体 ,景区 内 或 景区 周边 商户 的 服务 能 力 和 质量 ,会 影响 游客 对 景 
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区 的 口碑 和 旅游 体验 。 

大 数据 技术 使 得 景区 具备 了 从 多 个 角度 监管 商户 的 能 力 , 数 据 的 获取 渠道 有 景区 的 投 
诉 热线 .景区 手机 服务 App 平台 、 开 放 的 互联 网 平台 、 景 区 为 商户 配置 的 POS 机 、 监 控 摄 像 

其 中 ,互联 网 平台 抓 取 与 商户 有 关 评 论 数 据 ,通过 文本 分 析 抓 取 游客 反馈 的 关键 字 , 在 
掌握 游客 对 商户 正面 负面 评价 比例 数据 的 同时 ,还 可 以 从 评价 文本 中 提炼 游客 反映 的 意见 ， 
有 助 于 进行 定点 的 督导 改进 。 通 过 POS 机 ,监控 摄像 机 能 够 全 面 掌 控 商户 实时 交易 数据 ， 
为 商业 坪 效 (单位 面积 单位 时 间 内 的 销售 产 出 ) 评 价 提供 数据 支持 ,对 比 商 业 营业 额 与 周边 
客流 量变 化 .不 同 消费 项 目的 消费 额 等 ,为 商业 数量 增 减 、 商 户 经 营 品 类 调整 提供 依据 。 

在 利用 技术 手段 实现 监控 和 监管 的 同时 ,景区 针对 覆盖 范围 内 的 商户 建立 长 期 有 效 的 
服务 评级 机 制 和 黑 名 单 制 度 , 把 商户 评价 评级 的 主导 权 交 给 游客 ,依托 景区 手机 服务 App 
实现 游客 的 线 上 评分 和 投诉 ,助力 景区 商户 精细 化 管理 。 

5. 游客 手机 服务 平台 

智能 手机 的 高 普及 率 使 得 手机 成 为 旅游 景区 提供 服务 的 优质 触 点 平台 ,大 数据 在 手机 
服务 平台 上 的 应 用 更 多 地 体现 在 整合 多 类 数据 ,开发 数据 产品 ,并 以 App 的 方式 为 游客 提 
供 信息 服务 上 。 

(1) 电子 门票 : 依托 手机 服务 平台 ,以 二 维 码 电子 门票 替换 原 有 的 纸 质 门票 ,通过 手机 

台 实 现 门 票 购买 在线 支付 .订单 查询 ,订单 管理 ,退票 和 检票 功能 ,进入 景区 可 扫描 二 维 
码 或 者 身份 证 ,提升 了 游客 进入 景区 的 体验 。 

(2) 智能 导 览 : 智能 导 览 是 利用 二 维 码 技术 、GPS 定位 技术 、 文 本 转 语音 技术 、 电 子 地 
图 、 多 语言 支持 等 技术 相 结 合 , 为 游客 提供 自助 导 览 服务 。 通 过 智能 导 览 服务 ,游客 可 以 实 
时 掌握 在 景区 的 位 置 ,并 获得 推荐 游览 路 线 , 当 游客 进入 景点 位 置 5m 范围 内 时 ,服务 平台 
会 提示 并 提供 景点 语音 介绍 服务 。 

(3) 景区 商户 推荐 : 手机 服务 平台 会 推荐 给 游客 住宿 .餐饮 和 购物 的 商户 信息 ,支持 游 
客 对 商户 的 服务 评价 和 星 级 评级 ,评价 和 评级 的 历史 数据 会 沉淀 在 平台 供 游 客 进行 比较 选 
择 ,并 支持 游客 的 线 上 预订 服务 。 

(4) 一 键 呼救 : 游客 使 用 一 键 呼救 功能 ,系统 自动 拨打 调度 中 心 报警 电话 ,同时 自动 打 
开 终 端 GPS 芯片 进行 定位 ,将 游客 的 位 置信 息 发 送 到 调度 中 心 GIS 平台 进行 定位 ,方便 监 
控 中 心 进行 警 员 调 动 . 警 员 接警 后 的 快速 反应 ,最 大 程度 保障 游客 利益 。 

(5) 常用 信息 服务 : 提供 景区 介绍 天气、 交通 、 旅 游 指南 、 公 出 位置、 银行 等 配套 设施 
位 置 等 多 类 信息 服务 。 


3.3.3 智慧 管理 


景区 的 智慧 管理 体现 在 对 景区 内 游客 状态 的 实时 监控 、 游 客 量 的 预测 以 及 大 量 的 自然 
资源 人文 景观 ,游乐 场所 等 固定 设施 的 监控 。 通 过 监控 ,能 够 预防 和 快速 处 理 突 发 事件 的 
发 生 。 同 时 ,沉淀 的 数据 ,如 客流 轨迹 也 有 助 于 优化 景区 内 各 类 资源 的 配置 。 


1. 客流 量 监控 预警 及 分 析 
智慧 景区 监控 系统 是 大 数据 平台 的 重要 基础 设施 ,可 对 突 发 事件 如 踩踏 、 拥 挤 进行 实时 
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监测 ,及 时 预警 。 本 案例 中 的 客流 量 监控 预警 系统 ,建立 了 对 景区 主要 道路 及 路 口 的 实现 客 
流量 计数 流量 分 析 、 系 统 示警 和 流量 调控 等 功能 的 智慧 化 综合 管理 平台 。 对 景区 现场 实施 
全 天 候 、 全 方位 24 小 时 监控 及 人 员 流 动 的 记录 .达到 加 强 现场 监督 和 安全 管理 的 目标 。 

根据 景区 客流 系统 的 整体 规划 ,在 本 次 客流 统计 系统 中 各 重点 出 入 口 .重点 路 段 将 作为 
最 基础 的 客流 采集 单位 ,客流 数据 经 过 内 部 网 络 传 回 至 景区 信息 监控 中 心 。 本 案例 采用 国 
际 领先 技术 的 高 精确 度 的 Smartcount 客流 统计 产品 。Smartcount 采用 独 有 的 立体 图 像 
处 理 技术 和 追踪 追尾 处 理 , 用 一 台 摄像 机 进行 三 次 元 处 理 , 可 以 实现 更 高 精度 的 数据 采集 。 
同时 采用 人 形 立 体 识别 技术 ,可 识别 人 的 立体 形状 ,实现 高 速 高 密度 分 析 处 理 , 可 在 计数 范 
围 内 从 各 个 角度 把 握 、 追 踪 人 像 , 很 复杂 的 人 的 行为 也 
可 准确 计数 ,同时 采用 独 有 的 店员 排除 计数 的 算法 ,可 
更 精确 地 掌握 实际 客流 量 。 

系统 的 视频 显示 功能 形成 实时 的 景区 热力 图 (如 
图 3-6 所 示 ) ,最 大 程度 地 帮助 景区 管理 人 员 了 解 和 分 
析 园 区 的 客流 变化 。 除 了 实时 的 客流 展示 ,还 能 够 提 
供 选 定 时 段 客 流量 趋势 变化 、 客 流 数量 对 比 . 人 均 停留 
时 间 及 对 比 、 人 均 停 留 时 间 趋 势 变 化 等 维度 的 指标 分 
析 , 支 撑 景 区 内 部 各 个 层级 管理 人 员 的 人 流量 监测 需 
求 ,满足 政府 对 整体 旅游 市 场 人 流量 的 统计 和 监管 图 3-6 景区 实时 热力 图 

2. 游客 流量 预测 

国内 旅游 市 场 存 在 明显 的 潮汐 现象 ,每 年 旅游 旺季 都 会 有 个 别 景区 出 现 客 流量 “井喷 ”、 
旅客 滞留 的 现象 ,如 果 在 旅游 旺季 到 来 之 前 ,景区 能 够 主动 探寻 游客 的 消费 动向 ,较为 准确 
地 预测 客流 量 ,提前 准备 相应 的 应 对 方案 .配置 资源 ,能 够 一 定 程度 地 解决 因 游客 流量 暴 增 
导致 的 交通 ,住宿 ,安全 等 一 些 问题 ,提前 引流 或 处 置 资源 .保障 游客 在 景区 内 的 旅游 质量 。 

大 数据 平台 综合 分 析 景区 积累 的 历史 数据 ,分 析 趋 势 ,确定 需要 重点 预测 的 时 间 窗 口 ， 
与 各 大 旅游 网 络 平台 和 互联 网 公司 合作 ,获得 机 票 酒店、 度假 .门票 .景区 搜索 量 等 外 部 数 
据 , 汇 总 、 分 析 各 个 数据 源 的 数据 结果 ,可 以 提前 数 日 预测 各 景区 到 访 人 数 。 

线 上 的 游客 人 流量 预测 可 以 预 估 景区 的 热度 ,得 到 一 些 粗 粒度 的 统计 数据 ,此 类 数据 可 
以 在 宏观 层面 指导 景区 配置 资源 ,但 在 实际 的 操作 过 程 中 , 线 上 数据 的 预测 数据 本 身 存在 一 
定 偏差 ,再 加 之 有 相当 规模 的 临时 性 的 散 客 ,无 法 通过 早期 的 线 上 痕迹 进行 监测 ,针对 这 种 
情况 ,景区 与 交通 部 门 和 电信 运营 商 合作 ,在 旅游 旺季 每 天 获得 准 实时 的 车 流量 和 景区 辐射 
范围 内 的 手机 连接 数据 ,从 侧面 预测 到 访 的 游客 流量 , 线 上 线 下 数据 相互 验证 ,补充 ,时 间 窗 
口 预测 和 实时 监控 预测 相 结合 ,能够 相对 准确 地 预知 每 日 到 访 景区 的 人 数 。 

3. 景区 地 理 信息 汇集 分 析 

旅游 与 地 理 信息 相关 性 极 强 ,GIS 中 如 图 形 、 区 域 景观 资源 信息 、 交 通路 线 等 诸多 要 素 
与 旅游 密切 相关 。GIS 支撑 下 的 旅游 信息 系统 与 一 般 旅游 信息 系统 相 比 ,可 以 完成 一 些 特 
殊 功能 ,如 图 形 分 析 , 空 间 数 据 综合 处 理 、 分 析 等 功能 。 随 着 旅游 业 的 迅速 发 展 ,传统 的 旅游 
地 图 已 远 不 能 满足 人 们 的 需要 。 以 认 间 信息 处 理 为 核 心 的 地 理 信 息 系 统 技术 , 因 具 有 强大 











的 空间 信息 管理 ,空间 信息 分 析 、 空 间 信息 查询 及 三 维 影像 显示 等 功能 ,而 成 为 旅游 业 信息 
化 的 首选 平台 。 

旅游 地 理 信息 系统 (Travel Geographic Information System, TGIS) 在 这 样 的 背景 下 应 
运 而 生 。TGIS 是 以 旅游 地 理 信 息 数据 库 为 基础 ,在 计算 机 硬 软件 支持 下 ,运用 系统 工程 和 
信息 科学 的 理论 和 方法 ,综合 地 动态 地 获取 、 存 储 、 管 理 , 分 析 和 应 用 旅游 地 理 信息 的 多 媒 
体 信 息 系统 。 作 为 旅游 景区 大 数据 平台 的 重要 基础 设施 ,TGIS 的 建设 可 以 实现 景区 资源 
的 系统 化 管理 并 支撑 智慧 化 的 旅游 服务 。 

1) 景区 资源 系统 化 管理 

构建 统一 的 信息 共享 平台 和 指挥 调度 体系 ,围绕 景区 的 资源 保护 、 经 营 管理 .安全 防范 
和 可 持续 发 展 等 方面 的 应 用 ,实现 景区 信息 数字 化 、 应 用 网 络 化 、 服 务 智能 化 ,更 好 地 保护 和 
开发 景区 旅游 资源 ,为 景区 的 科学 管理 ,发 展 决策 提供 信息 技术 支持 。 

2) 支撑 智慧 化 旅游 服务 

建立 以 景区 地 理 信 息 系统 为 平台 的 旅游 服务 体系 ,支持 景区 的 旅游 资源 调查 与 评价 、 旅 
游 规 划 、 景 观 设计 ,配套 服务 设施 建设 ,旅游 商品 设计 销售 旅游 资源 及 生态 环境 保护 等 , 满 
足 旅游 服务 与 管理 的 需要 。 

4. GPS 定位 数据 跟踪 分 析 

通过 景区 地 理 信 息 系统 ,整合 游客 .工作 人 员 、 车 辆 的 实时 GPS 定位 应 用 ,从 而 既 可 形 
象 直观 地 实现 对 内 部 工作 人 员 的 日 常 到 岗 管理 ,又 可 以 在 发 生 紧急 情况 的 时 候 , 能 快速 准确 
地 进行 救援 决策 ,调度 各 界 力量 实施 科学 \ 有 效 的 救援 工作 。 

GPS 终端 分 为 车 载 设备 和 手机 两 类 ,可 以 实现 对 车 辆 和 个 体 人 员 的 定位 监控 。GPS 定 





位 数据 跟踪 主要 包括 以 下 模块 。 
(1) 员工 与 车 辆 定位 监控 。 可 以 随时 掌握 景区 内 员工 和 车 辆 的 分 布 情况 ,并 根据 需要 
进行 调度 。 


(2) 多 点 监控 。 依 据 管理 权限 树 ,按照 层级 不 同 , 可 以 对 该 层级 下 可 以 监控 的 人 员 或 车 
辆 信息 实现 多 点 实施 监控 。 

(3) 单 点 跟踪 。 锁 定 特定 监控 对 象 ,跟踪 被 监控 对 象 的 运行 轨迹 以 及 相关 信息 ,如 位 
置 、 速 度 、 行 驶 方向 等 。 

(4) 轨迹 查询 。 查 询 任意 监控 对 象 的 历史 运行 轨迹 ,并 可 在 三 维 地 形 上 展示 。 

(5) 报警 。GPS 终端 根据 报警 配置 情况 ,可 实现 主动 报警 ,比如 超速 报警 、 跨 区 域 报 
警 等 。 

5. 森林 防火 智能 监测 

森林 防火 智能 监测 平台 采用 无 颖 融合 智能 图 像 识 别 技术 、 面 向 对 象 的 3D GIS 技 术 、 大 
型 网 络 监控 技术 等 高 新 技术 ,结合 林业 管理 的 专业 知识 和 林业 防火 的 经 验 ,建立 林业 防火 智 
能 监测 预警 及 应 急 指 挥 系统 ,从 而 实现 林 区 视频 的 自动 监控 ` 烟 火 准确 识别 、 火 点 精确 定位 、 
火 情 蔓延 趋势 推演 扑救 指挥 的 辅助 决策 .灾后 评估 等 多 方面 功能 ,建立 森林 防火 的 完整 业 
务 链 ,并 针对 性 地 解决 用 户 的 各 种 个 性 化 需求 。 

通过 在 林 区 高 处 安装 三 维 精确 定位 摄像 系统 获得 林 区 的 清晰 图 像 ,利用 视频 分 析 技术 ， 
根据 烟 、 火 的 光谱 特征 判断 是 否 发 生火 灾 。 一 旦 发 现 疑似 火 情 ,立即 触发 报警 , 林 区 视频 回 
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传 至 监控 中 心 , 如 果 确 认 报警 属实 ,摄像 系统 锁定 目标 ,精确 判断 火 点 位 置 ,并 根据 已 建立 的 
林业 防火 信息 数据 资源 做 出 灭火 方案 及 灾后 评估 。 

(1) 防火 准备 辅助 决策 。 根 据 各 地 区 的 火险 天 气 预报 和 火险 等 级 预报 ,为 各 地 、 各 林 区 
分 别提 供 各 自 不 同 的 火灾 预防 措施 、 火 源 管理 措施 、 扑 火 队 伍 战备 措施 等 辅助 决策 意见 。 

(2) 林 火 行为 预测 。 林 火 一 旦 发 生 , 系 统 可 迅速 向 决策 者 提供 林 火 区 位 ,蔓延 速度 、 火 
场 扩展 趋势 ,火线 强度 等 重要 的 火 情 数据 。 

(3) 扑 火 辅助 决策 。 根 据 林 火 发 生地 的 动态 信息 ,利用 本 系统 的 虚拟 演示 实现 对 扑 火 
工作 的 复杂 指挥 。 

(4) 火 情 蔓延 推演 。 动 态 推演 火灾 蔓延 的 方向 .速度 .区 域 等 。 

(5) 三 维 应 急 指 挥 : 借助 电子 沙盘 进行 复杂 的 应 急 指 挥 。 

(6) 灾后 评估 总 结 。 借 助 GIS 数据 库 , 对 过 火 面积 及 火灾 损失 进行 评估 ,并 对 灾后 重建 
提供 决策 依据 。 

旅游 行业 涉及 游客 、 景 区、 商户 等 多 类 要 素 , 有 诸如 订 票 .游览 ,交通 等 多 个 应 用 场景 ,在 
线 上 线 下 不 同 平台 上 产生 大 量 的 结构 化 数据 和 非 结 构 化 数据 ,旅游 大 数据 解决 方案 从 景区 
内 部 以 及 外 部 整合 数据 资源 ,历经 采集 、 存 储 和 清洗 进行 数据 处 理 ,支撑 景 区 内 部 的 管理 、 营 
销 和 游客 体验 提升 ,其 中 涉及 物 联网 的 技术 、 线 上 数据 的 抓 取 技 术 等 ,改变 了 传统 的 人 工 对 
旅游 数据 的 采集 、 排 查 、 分 析 等 工作 程序 ,改变 的 不 仅 是 决策 效率 和 洞察 维度 ,更 是 重 构 了 传 
统 旅游 行业 的 整个 产业 链条 ,改变 了 旅游 行业 运营 方式 。 





可 大 数据 的 开放 与 共享 


训 


大 数据 是 一 场 彻 底 改 变 人 们 生活 、 工 作 和 思维 方式 的 革命 ,是 继 移动 互联 网 、 物 联网 ` 云 
计算 后 对 ICT 产业 具有 深远 影响 的 一 次 技术 变革 。 在 工业 化 向 信息 化 转型 时 期 ,信息 的 公 
开 、 共 享 与 服务 成 为 时 代 发 展 的 主题 ,作为 信息 载体 的 数据 正在 成 为 与 物质 和 能 源 同 等 重要 
的 经 济 资源 。 

目前 ,大 数据 企业 不 断 推 出 各 式 各 样 的 大 数据 存储 、 处 理 、 分 析 产 品 ,同时 ,社交 网 络 、 金 
融 .通信 ,政务 等 大 数据 存在 的 领域 ,也 相继 建设 大 数据 平台 ,从 平台 的 存储 处 理 分 析 等 各 方 
面 都 无 不 体现 着 行业 特征 。 但 是 因数 据 源 、 格 式 、 内 容 等 的 多 样 性 ,使 得 大 数据 的 应 用 缺乏 
通用 性 和 标准 化 的 现状 ,限制 了 大 数据 的 开放 共享 ,在 很 大 程度 上 也 阻碍 了 大 数据 的 发 展 。 


4.1 数据 资源 开放 和 共享 


未 来 5 年 ,全 球 数据 量 呈 指数 级 增长 。 据 国际 数据 公司 (IDC) 统 计 ,2014 年 全 球 数据 总 
量 为 8ZB, 预 计 2020 年 达到 44ZB。 同 期 ,我 国 数据 总 量 为 909EB, 占 全 球 数据 总 量 的 13%。 
其 中 ,媒体 、 互 联网 数据 量 占 比 为 1/3 ,政府 部 门 .电信 企业 数据 量 占 比 为 1/3, 其 他 的 金融 、 
教育 制造 .服务 业 等 数据 量 占 比 为 1/3。 预 计 到 2020 年 我 国 数据 量 将 达到 8060EB, 占 全 
球 数据 总 量 的 18% ,0 

大 数据 应 用 的 关键 在 于 分 享 ,各 行业 已 逐渐 意识 到 单一 的 数据 无 法 发 挥 最 大 的 效能 ,一 
个 个 信息 孤岛 无 法 独自 实现 真正 的 全 数据 分 析 ,也 就 无 法 完整 地 重 构 用 户 画 像 ,数据 的 缺失 
也 会 导致 市 场 发 展 趋 势 预测 的 偏差 ,因此 未 来 大 数据 的 健康 发 展 ,资源 的 开放 和 共享 是 
核心 。 

4.1.1 打破 “信息 孤岛 ” 

信息 孤岛 的 产生 ,应 该 说 是 大 数据 发 展 过 程 中 的 一 个 必 经 阶段 ,也 是 当前 的 发 展 瓶 颈 。 
我 们 在 认识 大 大 数据 的 发 展 历程 时 可 以 看 到 ,需要 数据 采集 存储、 处 理 技术 的 共同 发 展 。 

大 数据 飞速 发 展 过 程 中 , 当 数据 作为 经 济 资源 的 价值 日 益 突出 ,数据 信息 孤岛 的 困境 也 
随 着 出 现 。 我 国 公共 数据 资源 开放 处 于 起 步 阶段 ,面临 制度 .规范 .平台 、 数 据 可 用 性 等 问题 
与 挑战 ,整体 呈现 * 不 愿 开 \ 不 敢 开 、 不 能 开 、 不 会 开 ” 的 局 面 。 
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1. 不 愿 开 

信息 资源 是 独家 垄断 资源 ,开放 后 担心 部 门 权力 削弱、 经 济 利益 受 损 ,并 可 能 暴露 部 门 
业务 问题 。 

2. 不 敢 开 

尚 缺 乏 保障 数据 开放 的 配套 制度 ,缺少 具有 可 操作 性 的 强制 性 规定 ,与 政府 信息 公开 、 
保密 法 、 档 案 法 等 相关 法 律 法 规 衔接 不 到 位 ,各 地 对 政府 数据 开放 的 范围 和 潜在 风险 存在 
“后 顾 之 忧 ”。 

3. 不 能 开 

数据 基础 不 牢 ,公共 部 门 尚未 建立 一 套 完 整 的 数据 资源 采集 、 管 理 `. 加 工 和 开发 利用 的 
体系 ,很 多 信息 资源 缺乏 数字 化 ,数据 资源 多 头 采 集 .重复 建设 .成 本 高 昂 , 很 多 数据 无 人 维 
护 .不 具有 可 持续 性 ,数据 的 质量 和 准确 性 也 存在 问题 ,有 哪些 数据 资源 也 不 清楚 。 

4. 不 会 开 

开放 质量 不 高 ,可 利用 性 差 , 网 站 的 建设 和 维护 问题 ,网 站 数据 的 质量 问题 (可 机 读 性 
差 ,数据 更 新 频率 不 高 ,数据 互动 性 差 等 )。 网 站 缺乏 标准 化 ,增加 使 用 者 成 本 。 


4.1.2 全 球 数据 的 开放 与 共享 


美国 政府 最 先 对 大 数据 革命 做 出 战略 反应 。2009 年 ,美国 联邦 政府 发 布 ( 开 放 政 府 指 
令 》, 作 为 大 数据 的 前 奏 推 出 了 Data. gov 公共 数据 开放 网 站 。2012 年 3 月 ,美国 联邦 政府 
发 布 了 (大 数据 研究 和 发 展 计划 》, 正 式 启动 了 “大 数据 发 展 计 划 ”, 宣 布 将 投入 超过 两 亿美 元 
在 大 数据 研究 上 ; 同年 5 月 ,联邦 政府 发 布 ( 数 字 政 府 战 略 》( DigitaeL Government Strategy)， 
致力 于 为 公众 提供 更 好 的 “数字 化 ?服务 ,围绕 数据 进行 的 一 系列 措施 在 美国 政府 全 面 推进 ， 
大 数据 对 美国 政府 的 影响 逐步 显现 。 

2013 年 5 月 9 日 ,奥巴马 签署 第 13642 号 总 统 行政 令 , 对 联邦 大 数据 管理 工作 提出 了 
新 的 准则 ,提出 在 保护 好 隐私 安全 性 与 机 密 性 的 同时 ,将 数据 公开 化 以 及 可 读 写 化 纳入 政府 
的 义务 范围 。2014 年 5 月 1 日 ,美国 总 统 行政 办 公 室 向 奥巴马 提交 了 一 份 名 为 (大 数据 : 把 
握 机 遇 ,维护 价值 》 的 报告 , 阑 述 了 大 数据 带 来 的 机 遇 与 挑战 。 报 告 认 为 ,大 数据 技术 为 美国 
经 济 、 人 民 的 健康 和 教育 .能 源 利 用 率 以 及 包括 信息 安全 在 内 的 国家 安全 等 提供 了 难得 的 机 
遇 。 同 时 ,报告 也 指出 了 大 数据 为 美国 隐私 保护 、 信 息 安 全 和 社会 发 展 带 来 了 新 的 挑战 。 在 
这 些 战略 框架 中 ,基本 都 考虑 了 大 数据 对 既 有 法 律 制度 的 挑战 和 相应 对 策 。 

欧盟 专门 在 2014 年 发 布 了 《数据 驱动 经 济 战略 》, 有 望 近期 内 成 为 欧盟 经 济 单列 行业 ,为 
欧盟 恢复 经 济 增长 和 扩大 就 业 , 做 出 巨大 贡献 。 欧 盟 在 大 数据 方面 的 活动 主要 涉及 两 方面 内 
容 : 四 研究 数据 价值 链 战 略 计划 ; @ 资 助 * 大 数据 ”和 “开放 数据 "领域 的 研究 和 创新 活动 。 

数据 价值 链 战 略 计 划 包 括 开 放 数 据 、 云 计算 、 高 性 能 计算 和 科学 知识 开放 获取 4 大战 
略 ,主要 原则 是 : 高 质量 数据 的 广泛 获得 性 ,包括 公共 资助 数据 的 免费 获得 ; 作为 数字 化 单 
一 市 场 的 一 部 分 ,欧盟 内 数据 的 自由 流动 ; 寻求 个 人 潜在 隐私 问题 与 其 数据 再 利用 潜力 之 
间 的 适当 平衡 ,同时 赋予 公民 以 其 希望 形式 使 用 自己 数据 的 权利 。 

《国务 院 关 于 印发 促进 大 数据 发 展 行动 纲要 的 通知 》( 国 发 (2015]50 号 ) 中 ,将 全 面 实 施 
大 数据 战略 ,提高 信息 资源 掌控 和 利用 能 力 ,推动 数据 共享 开放 和 开发 利用 ,培育 有 国际 竞 











第 4 章 大 数据 的 开放 与 共享 


争 力 定位 主要 任务 ,对 于 大 数据 的 资源 开放 和 共享 任务 主要 有 以 下 几 点 。 

) 统筹 政务 数据 资源 和 社会 数据 资源 ,形成 统一 、 开 放 、 共 享 的 新 格局 ; 

(2) 加 快 国家 人 口 库 、 法 人 库 、 空 间 地 理 库 和 重要 领域 信息 资源 建设 ,推动 形成 全 国 统 
一 的 基础 数据 资源 体系 ; 

(3) 建立 完善 国家 数据 共享 平台 ,推动 跨 部 门 数据 共享 、 跨 领域 业务 协同 和 跨 区 域 制度 
对 接 ; 

(4) 加 快 建设 国家 政府 数据 统一 开放 平台 ,强化 对 国家 公共 数据 资源 的 统筹 管理 ,制定 
公共 部 门 开放 计划 ,稳步 推进 国家 数据 资源 向 社会 开放 。 

在 大 数据 与 信息 经 济 并 发 的 时 代 ,数据 和 信息 资源 便 成 为 全 世界 公认 的 重要 新 型 资源 ， 
尤其 是 在 一 些 能 源 匮乏 的 地 区 ,开放 信息 资源 将 会 有 利于 为 国家 创造 新 的 经 济 增长 点 ,节约 
人 财 成 本 ,夯实 国家 的 基础 建设 。 公 共 信息 资源 是 由 政府 部 门 或 单位 通过 信息 与 通信 技术 
的 不 断 更 新 ,科技 的 进步 ,时 代 的 发 展 积 累 与 产生 的 信息 资源 ,因为 是 由 我 国政 府 出 资 或 是 
授权 才能 产生 的 资源 ,因此 公共 信息 资源 应 是 国家 的 战略 资产 和 重要 财富 ,这些 资源 如 同 能 
源 一 般 蕴 育 了 巨大 的 使 用 价值 和 信息 财富 ,这 些 资源 主要 产生 在 政务 部 门 、 事 业 单位 \ 市 政 
公共 企业 事业 单位 等 部 门 与 单位 ,将 这 类 公共 信息 资源 进行 开放 共享 有 利于 社会 与 公众 的 
衣食 住 行 .生产 生活 ,发 展 娱乐 等 方面 的 日 常 的 生活 需求 。 


4.1.3 数据 标准 化 


数据 的 开放 和 共享 是 加 速 大 数据 技术 和 应 用 发 展 的 趋势 ,但 是 大 数据 的 5V 特性 给 数 
据 的 收集 \ 处 理 和 可 视 化 等 多 方面 带 来 了 极 大 的 困难 ,并 且 由 于 数据 资源 内容、 格式 ,采集 
技术 等 的 多 样 性 ,以 及 隐私 保护 的 需求 ,大 数据 的 开放 和 共享 也 成 为 当前 大 数据 的 发 展 瓶 
人 颈 。 建 立 一 套 完整 的 大 数据 标准 化 体系 是 推进 资源 的 开放 和 共享 的 必要 工作 ,行业 资源 的 
共享 和 跨行 业 数 据 的 开放 都 需要 以 一 定 的 基础 数据 标准 为 借口 。 

当前 的 数据 之 所 以 难以 开放 共享 ,根本 原因 在 于 当前 的 数据 整体 系统 的 复杂 性 和 标准 
化 体系 的 缺失 。 如 同 铁路 的 钢轨 不 是 统一 标准 ,就 不 能 连接 到 全 国 各 地 ,甚至 跨国 通车 。 

大 数据 发 展 的 关键 要 素 主要 有 数据 、 技 术 、 应 用 以 及 政策 扶持 ,如 图 4-1 所 示 。 其 中 , 数 
据 源 的 采集 和 分 类 ,存储 和 计算 技术 ,行业 数据 对 接 等 各 个 环节 都 缺少 统一 标准 ,难以 实现 
开放 共享 . 互 连 互通 。 
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图 4-1 大 数据 发 展 的 关键 要 素 
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目前 ,国际 上 主要 研究 制定 大 数据 标准 的 组 织 , 如 表 4-1 所 示 。 
表 4-1 国际 大 数据 标准 化 组 织 
序号 标准 组 织 和 协会 个 数 范围 





YY ISO/IEC JTCI SC7 .SC27 .SC38 ITU-T SG13 4 国际 标准 化 组 织 





DMTEF、CSA、OGF SNIA. OCC. OASIS. TOG. ARTS、 























2 IEEE .CCIF .OCM Cloud use case.A6 .OMG IETF 、TM 20 国际 标准 化 组 织 
Forum ATIS.ODCA .CSCC.W3C 

3 ETSI, Eurocloud ENISA 3 欧洲 

4 GICTF .ACCA.CCF .KCSA.CSRT 5 亚洲 

5 NIST ’ 美洲 
合计 33 


自 2012 年 开始 ,ITU-T、ISO/IEC、NIST、CCSA 等 国内 外 标准 研制 组 织 相继 组 建 工 作 
组 展开 大 数据 研究 和 标准 化 工作 ,这 些 工作 组 在 大 数据 定义 、 相 关 术 语 、 需 求 等 方面 输出 少 
量 研究 报告 和 标准 。 虽 然 研 究 成 果 有 限 ,但 其 研究 方法 和 方向 具有 重要 的 借鉴 意义 .9 
国际 大 数据 标准 化 现状 如 图 4-2 所 示 。 


2012 2013 2014 
一 > 


mu Ts nobr | [ES 
wsraepm women [EUEEERSEEEEES 


CCSA TCIWG3 











CCSA TC8WG2 





BO/EC ITC1 Sudy Group on Big Data 


CCSA TC5WG5 


CCSA TCIWG4 | | [大 数据 需求 、 声 时 及 架构 研究 》 标价 研究 过 直立 项 “| 





CCSA TCIWG4 





CESI 


CCSA TCI1IWG1 


i san 有 人 tteeerx 


图 4-2 国际 大 数据 标准 化 现状 


2016 年 5 月 ,全 国信 息 技 术 标 准 化 技术 委员 会 大 数据 标准 工作 组 发 布 了 《大 数据 标准 
化 白皮书 (2016)》, 提 出 了 由 基础 标准 、 数 据 标准 、 技 术 标 准 、 平 台 和 工具 标准 ,管理 标准 、 安 
全 和 隐私 标准 ,行业 应 用 标准 共 7 个 类 别 组 成 的 大 数据 标准 体系 框架 。 其 中 ,数据 标准 主要 
针对 底层 数据 相关 要 素 进行 规范 ,包括 数据 资源 和 数据 交换 共享 两 部 分 。 数 据 交 换 共 享 就 
是 针对 将 大 数据 作为 经 济 商品 进行 交易 的 相关 标准 ,以 及 为 实现 政府 和 社会 数据 的 开放 共 


@ 韩 晶 , 王 健全 . 大 数据 标准 化 现状 及 展望 [J]. 信息 通信 技术 2014,(6) : 38-42. 


享 制定 统一 的 数据 格式 、 编 码 .单位 等 标准 。. 
数据 标准 框架 如 图 4-3 所 示 。 
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图 4-3 数据 标准 框架 


4.2 数据 构建 的 “知识 森林 ” 


大 数据 成 为 重要 的 战略 资源 ,得 到 国家 的 高 度 重视 ,国务 院 发 布 了 促进 大 数据 发 展 行动 
纲要 ,提出 了 发 展 大 数据 的 指导 思想 、 主 要 任务 和 政策 机 制 ,“ 十 三 五 ”规划 中 明确 提出 十 三 
五 期 间 要 提出 “要 实施 大 数据 战略 ”, 提 出 “把 大 数据 作为 基础 性 资源 ,全 面 实施 促进 大 数据 
发 展 行动 ,加 快 推 进 数据 资源 共享 和 开发 应 用 ,助力 产业 转型 升级 和 社会 创新 ”, 大 数据 已 上 
升 为 国家 战略 。 

传统 电信 行业 在 OTT 等 互联 网 产品 的 冲击 下 ,其 话音 经 营 路 线 已 经 穷 途 末 路 ,运营 商 
迫切 需要 用 互联 网 思维 武装 自己 ,才能 在 这 激烈 的 角逐 中 不 至 于 被 彻底 “边缘 化 ”。 电 信 运 
营 商 作为 数据 的 生产 者 ,拥有 丰富 的 大 数据 资源 ,这 些 资 源 优势 是 其 他 企业 无 法 企及 的 , 价 
值 挖 气 潜 力 巨 大 。 而 拥有 如 此 优质 的 数据 基础 ,使 得 运营 商 在 企业 行业 、 社 会 等 多 个 层面 ， 
都 将 能 够 大 有 作为 。 中 国 移动 从 2007 年 就 开始 云 计算 的 探索 和 实践 ,是 国内 云 计算 的 先行 
者 和 倡导 者 ,积极 参与 国内 外 的 标准 化 和 产业 推动 。 中 国 移动 通过 对 数据 的 挖掘 、 建 模 、 应 
用 、 提 升 ,政府 应 用 ,改善 转型 ,在 促进 企业 发 展 的 同时 加 快 推进 数据 资源 共享 和 开发 应 用 ， 
助力 产业 转型 升级 和 社会 创新 。 

根据 《2015 年 全 国教 育 事业 发 展 统计 公报 ) 数 据 ,2015 年 我 国 小 学 生 9926. 37 万 ,初中 
生 5066. 80 万 ,高 中 生 4686. 61 万 ,国内 中 小 学 生 的 总 人 数 基数 接近 两 亿 , 全 国 中 小 学 数量 
达到 约 32 万 所 。 国 家 财政 性 教育 经 费 支 出 超过 两 万 亿 , 全 国教 育 信息 化 年 投入 超 1000 亿 。 
基于 大 数据 的 教学 改革 逐步 开展 , 若 每 所 学 校 数据 化 基础 服务 费 最 低 三 万 元 /年 , 则 全 国 
32 万 所 中 小 学 每 年 接近 一 百 亿 元 的 基础 服务 市 场 规 模 。 全 国有 两 亿 的 在 校 学 生 ,每 户 每 月 
最 低 5 元 的 基础 增值 业务 服务 费 , 则 年 度 个 人 用 户 的 基础 增值 服务 市 场 总 额 大 于 120 亿 元 。 

面 对 迅 猛 发 展 的 巨大 市 场 , 在 线 教育 和 移动 教育 市 场 既 开放 又 混乱 ,如 今 的 教育 类 


数据 资源 


Q@ 全 国信 息 技 术 标准 化 技术 委员 会 大 数据 标准 工作 . 大 数据 标准 化 白皮书 (2016)[R]. 2016. 
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App 五花八门 ,一 个 App 开发 和 短期 存活 的 成 本 并 不 高 ,使 得 教育 类 App 并 不 愁 “ 量 ” 的 问 
题 ,学 习 教 育 类 App 数量 排名 App Store 第 二 位 ,同时 造成 了 大 量 低 质 产品 的 涌 人 。 通 过 
对 市 场 状况 和 现 有 产品 的 分 析 , 明 确 了 以 下 需求 痛 点 。 

1. 学 生 ( 小 学 、 初 中 、 高 中 ) 

当前 网 上 教育 平台 众多 ,教育 资源 繁多 但 良 劳 不 齐 ,学 生 需 要 优质 课程 的 梳理 ,呈现 各 
学 科 详 细 知 识 结构 与 脉络 (原始 知识 树 ) 、 线 上 优秀 教育 资源 的 评价 推荐 (科学 权威 教育 资源 
评价 推荐 体系 ) .个 性 化 学 习 过 程 的 记录 与 反馈 (个 性 化 知识 树 的 构建 ) 个 性 化 学 习 计 划 推 
荐 ( 自 适应 学 习 路 径 的 推荐 ) ,学习 成 果 的 反馈 (科学 的 试题 库 .考核 检测 体系 ) .学 习 成 果 的 
个 性 化 呈现 (个 人 知识 森林 的 管理 ) 等 。 

2. 教师 

面 对 线 上 众多 教育 资源 ,如 何 为 学 生 选 择 放心 优质 的 课程 .对 学 习 动 态 的 把 握 、 对 学 4 
学 习 成 果 的 掌握 .对 学 习 路 径 进行 调整 和 个 性 化 指导 等 是 教师 对 线 上 教育 资源 的 需求 。 

3. 家 长 

众多 家 长 流露 出 既 希 望 孩子 进行 线 上 学 习 又 担心 的 矛盾 心理 ,对 孩子 线 上 学 习 课 程 不 
放 放 心 ,对 线 上 学 习 是 否 有 助 于 学 习 成 绩 提 升 不 确定 ,对 孩子 线 上 学 习 状 态 难 以 掌握 。 

4. 教育 资源 提供 者 

现 阶 段 未 对 教育 资源 进入 线 上 设立 统一 的 门槛 和 标准 ,缺乏 对 教育 资源 的 评估 ,致使 线 
上 教育 资源 质量 参差 不 齐 ,优质 教育 资源 提供 方 迫 切 需求 安全 高效、 信誉 优质 .用 户 众多 的 
资源 输出 平台 。 

中 国 移动 “和 教育 ? 云 平台 汇聚 了 北京 师范 大 学 .科大 讯 飞 、 新 东方 .好 未 来 .凤凰 传媒 、 
华师 京城 .北京 四 中 等 知名 教育 机 构 的 优质 资源 ,以 K12 教育 为 切入 点 ,围绕 教师 .学 生 、 家 
长 之 间 真 实 的 客户 关系 ,为 客户 提供 各 类 教育 细 分 产品 ,满足 不 同 客 户 的 个 性 化 需求 。 云 平 
台 上 线 以 来 ,实现 汇集 全 网 一 千 多 万 条 优质 教学 资源 和 近 三 十 款 精 品 应 用 ,通过 与 全 国 31 
省 对 接 , 在 实际 建设 和 运营 中 发 现 , 当 前 教育 信息 化 产品 对 教学 过 程 尚未 根本 改变 ,传授 知 
识 点 不 直接 精确 , 且 知 识 点 之 间 缺 乏 关联 ,因材施教 .个 性 化 学 习 很 难 实现 。 为 此 开发 基于 
知识 点 的 个 性 化 学 习 产 品 “ 知 识 森 林 ”。 


4.2.1 平台 设计 


教育 领域 中 的 大 数据 有 广义 和 狭义 之 分 ,广义 的 教育 大 数据 泛 指 所 有 来 源 于 日 常 教育 
活动 中 人 类 的 行为 数据 ,具有 层级 性 、 时 序 性 和 情境 性 的 特征 ; 而 狭义 的 教育 大 数据 是 指 学 
习 者 行为 数据 , 它 主要 来 源 于 学 生 管理 系统 、 在 线 学 习 平台 和 课程 管理 平台 等 。 建 立 面向 中 
小 学 学 生 的 和 知识 森林 的 平台 首先 要 完成 数据 的 采集 和 分 类 。 

数据 构成 如 图 4-4 所 示 。 

数据 的 来 源 主要 分 类 线 上 和 线 下 。 线 上 资源 是 以 中 国 移动 和 教育 平台 教育 资源 .用户 
数据 为 主 ; 线 下 资源 则 是 对 学 生 、 教 师 、 家 长 、 转 件 、 教 育 企业 的 访谈 数据 ,也 就 是 对 用 户 需 
求 的 调研 数据 。 

按照 教育 资源 和 用 户 行为 分 层 ,定量 数据 和 定性 数据 进行 分 类 ,对 数据 进行 脱 敏 、 吻 重 、 
聚 类 等 处 理 。 
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图 44 数据 构成 
数据 应 用 的 全 过 程 要 按照 保证 隐私 ,覆盖 全 面 .实时 更 新 ,准确 无 误 的 原则 进行 处 理 。 
4.2.2 实施 路 径 


在 “大 数据 ?时 代 , 个 人 数据 得 以 大 量 收集 分析, 这 使 得 在 教育 研究 中 数据 研究 的 价值 
大 幅度 提升 。 同 时 ,教育 “大 数据 ”的 出 现 , 也 使 得 个 性 化 教学 与 多 样 化 教学 更 具 可 行 性 。 

1. 知识 结构 为 基础 构建 原始 知识 树 

与 和 教育 平台 对 接 , 以 系统 内 教育 资源 为 基础 ,同时 引入 重点 名 校 资源 并 在 同一 数据 标 
准 下 实现 资源 的 共享 。 同 时 ,在 对 教师 教学 流程 和 学 生 学 习 反 馈 进行 大 量 调查 的 基础 上 . 梳 
理 各 学 科 知识 点 及 考点 ,构建 原始 知识 树 ( 如 图 4-5 所 示 ) ,实现 知识 地 图 形象 化 呈现 。 知 识 
点 间 的 关系 和 脉络 可 以 形象 地 用 树 表示 . 枝 干 连接 与 方向 表示 知识 点 之 间 的 关系 ,每 片 树叶 
代表 不 同 的 知识 点 。 建 立 各 学 科 原始 知识 树 , 每 一 学 科 一 棵 树 , 每 一 知识 点 一 片 叶 , 进 行 分 
区 , 主 科 为 乔木 区 、 副 科 为 果树 区 、 兴 趣 为 花 从 灌木 区 ,未 学 习 者 单 击 学 习 为 枯 树 枯 叶 , 且 以 
种 子 形态 展示 ,但 单 击 时 能 以 树木 生长 的 过 程 显示 知识 关联 和 潜在 学 习 过 程 ,如 图 4-6 
所 示 。 

基于 已 有 的 学 科 知识 本 体 ,允许 通过 半自动 化 和 人 工 编辑 的 方式 逐步 建立 学 科 知识 之 
间 的 语义 关联 关系 ,并 采用 自 上 而 下 以 及 自 下 而 上 两 种 关联 进化 的 思路 ,实现 学 科 知识 的 语 
义 关联 及 其 进化 。 自 上 而 下 是 指 由 学 科 专家 对 平台 中 新 增 的 学 科 知 识 关系 进行 人 工 审核 以 
及 手动 增加 学 科 知 识 之 间 的 关系 ,由 学 科 专 家 审核 或 新 增 的 学 科 知 识 关系 直接 被 系统 采纳 ; 
而 自 下 而 上 是 指 由 普通 用 户 根 据 现 实 需 要 对 平台 中 尚未 定义 的 学 科 知 识 或 学 科 知 识 之 间 的 
关系 ,以 及 尚未 标注 的 学 科 知 识 之 间 的 关系 进行 添加 ,或 是 基于 平台 推理 引擎 所 产生 的 相关 
学 科 知 识 和 学 科 知 识 关系 等 。 既 包括 已 建立 关联 关系 的 学 习 知 识 点 :也 包括 待 建立 关联 的 
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图 4-5 知识 树 
(> 学 科 知 识 关 联 
前 驱 、 后 继 、 
相关 、 包 含 、 
等 价 等 关系 


上 
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图 4-6 知识 网 络 


学 习 知 识 点 ,同时 对 于 课程 知识 群 中 的 学 习 知 识 点 及 其 之 间 已 建立 的 关联 关系 还 能 够 进行 
持续 更 新 和 进化 。 利 用 基于 学 科 知 识 本 体 所 建立 的 学 科 知 识 关 联 , 形 成 包含 学 科 知识 及 其 
之 间 相互 关联 关系 的 原始 知识 树 。 


2. 需求 感知 , 预 判 用 户 个 性 化 需求 ,实现 自动 化 学 习 
需求 感知 过 程 如 图 4-7 所 示 。 


知识 掌握 状态 
〇 掌握 名 练 
〇 掌握 一 般 
侠 掌 握 较 关 
O43 


二 
大 数据 获取 © e 0 
教师 经 验 数据 清洗 用 户 偏好 选择 。 需求 预 
处 理 蚂 到 过 
教材 安排 用 户 画 像 。 现 有 知识 水 平 “推荐 


用 户 行为 LI | 


图 4-7 需求 感知 


(1) 通过 对 老师 经 验 数 据 ,教科书 设 计 路 径 、 线 上 用 户 以 往 行为 数据 的 数据 清洗 、 模 型 
处 理 、 用 户 画 像 建 立 用 户 行为 数据 库 和 分 析 平 台 , 提 供用 户 需 求 预 判 和 学 习 路 径 推 荐 ,同时 
对 知识 点 关联 关系 进行 提示 。 

(2) 根据 学 生 的 实际 表现 , 建 模 , 将 大 数据 平移 到 新 用 户 ,根据 用 户 的 实际 反馈 来 不 断 
小 步 快 跑 迭 代 修 正 模型 。 

(3) 通过 学 生 自 主 晒 出 经 历 ,经 验 分 享 ,构建 用 户 知识 需求 感知 的 互动 氛围 。 

通过 需求 感知 功能 , 预 判 用 户 个 性 化 需求 ,进行 学 习 路 径 推 荐 ,以 树叶 揪 奥 形式 呈现 , 同 
时 对 知识 点 关联 关系 进行 提示 ,可 爱 的 树叶 像 招 手 一 样 吸引 用 户 学 习 。 

通过 用 户 行 为 数据 实现 个 性 化 知识 树 构 建 

如 图 4-8 所 示 为 一 棵 个 性 化 知识 树 。 
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图 4-8 个 性 化 知识 树 


传统 的 在 线 学 习 过 程 数据 采集 主要 通过 监控 和 跟踪 学 习 者 的 数据 库 访 问 记录 或 Web 
日 志文 件 来 实现 。 综 合 对 现 有 在 线 学 习 行 为 数据 采集 研究 的 分 析 , 可 以 发 现 目前 主要 存在 
以 下 两 方面 的 不 足 : 一 是 忽视 学 习 者 对 学 习 内 容 本 身 贡 献 的 行为 数据 采集 ; 二 是 学 习 行为 
数据 采集 与 分 析 模 型 很 少 关 注 学 习 者 当前 的 学 习 情境 信息 ,如 地 理 位 置 .气候 ,学 习 终端 、 网 
络 环境 等 。 

通过 对 学 习 者 行为 数据 的 跟踪 和 分 析 ,进行 个 性 化 学 习 识别 ,从 而 实现 个 性 化 知识 树 的 
构建 。 

学 习 情 境 信息 : 学 习 者 初始 能 力 水 平 信息 .学 习 终端 设备 信息 、 地 理 位 置信 息 以 及 时 间 
信息 等 影响 学 习 者 获取 和 运用 知识 的 一 切 要 素 。 

知识 建构 信息 : 学 习 内 容 与 学 习 资 源 的 编辑 、 审 核 、 批 注 、 分 享 和 传播 等 对 学 习 内 容 和 
学 习 资 源 进 行 再 创造 的 贡献 数据 。 

学 习 行为 信息 : 以 学 习 活 动 为 核心 ,主要 包括 浏览 学 习 内 容 与 资源 、 参 与 学 习 活 动 、 完 
成 学 习 任 务 等 过 程 性 的 行为 数据 。 

学 习 结 果 信 息 : 主要 包括 学 习 时 长 ,完成 活动 质量 、 测 试 成 绩 等 成 果 性 数据 。 

4. 个 性 化 知识 树 再 学 习 , 教 师 、 家 长 动态 把 握 及 有 效 干预 


如 图 4-9 所 示 ,个 性 化 知识 树 建构 过 程 中 掌握 程度 不 同 知识 点 树叶 呈现 不 同 颜色 ,并 以 


树叶 摇 蝶 形式 再 次 推荐 优化 学 习 路 径 ; 优化 学 习 后 再 次 提供 效果 测评 ,根据 测评 结果 ,树叶 
颜色 发 生变 化 。 教 师 ( 家 长 ) 通 过 姓名 查看 详情 可 以 清楚 查阅 某 人 的 学 习 动态 ,包括 学 习 时 
长 .学习 内 容 及 路 径 .学 习 成 果 评估 等 。 教 师 (家 长 ) 根 据 学 生 知 识 点 掌握 情况 ,发 现 知识 结 
构 薄 弱 方 向 ,及 时 对 学 习 路 径 进行 调整 和 个 性 化 指导 ,可 点 对 点 向 学 生发 送 学 习 任务 安排 、 
学 习 提醒 及 学 习 跟 踪 等 。 
点 击 放大 资源 推荐 、 教师 干预 
学 习 者 再 学 习 、 评 估 | 








图 4-9 再 学 习 时 的 知识 树 “ 成 长 ” 


5. 线 上 教育 资源 评估 

当前 线 上 教育 资源 的 使 用 效率 和 效果 ,并 未 随 着 资源 数量 而 同步 提高 。 资 源 的 重复 建 
设 、 数 量 庞杂 、 良 劳 不 齐 、 重 量 轻 质 ,是 突出 的 现象 。 数 量 庞 大 杂乱 ,使 得 学 习 者 无 从 选择 ; 
质量 良 劳 不 齐 , 使 得 学 习 者 无 从 辨识 ; 重 形式 轻 理 念 ,脱离 传统 模式 ,使 得 学 习 模 式 不 可 能 
发 生根 本 的 变化 。 面 对 庞杂 的 ,未 经 甄别 .未 有 指导 建议 的 海量 资源 ,学 习 者 只 会 更 加 困惑 、 
迷 侦 ,无 从 选择 或 盲目 选择 ,严重 影响 着 学 习 者 的 学 习 效 率 和 学 习 质 量 , 影 响 着 网 络 教育 的 
持续 、 良 性 发 展 。 

如 图 4-10 所 示 , 设 定 专家 评估 子 体 系 和 学 习 者 评估 子 体系 分 别 从 专家 的 学 术 角度 和 学 
习 者 的 使 用 角度 对 数字 资源 进行 评估 。 专 家 评估 子 体系 包括 专家 标准 化 意见 和 主 评 专 家 意 
见 。 标 准 化 意见 包括 若干 个 评估 维度 ,评估 项 以 及 权重 ; 主 评 专 家 意见 则 是 相对 个 性 化 的 
特色 点 评 。 学 习 者 评估 子 体系 包括 主观 评估 和 客观 评估 。 主 观 评估 指 学 习 者 对 于 具体 数字 
资源 的 主观 点 评 ; 客观 评估 则 指 基于 学 习 者 网 络 学 习 的 行为 习惯 等 数据 挖掘 。 对 教育 资源 
进行 排序 推荐 ,减少 学 生 学 习 盲目 性 。 随 着 数据 积累 和 学 生 反馈 可 将 该 模型 用 到 全 部 线 上 


4.2.3 案例 分 析 


1. 历史 数据 及 用 户 行为 数据 应 用 

充分 利用 * 和 教育 " 现 有 教育 资源 和 用 户 资源 大 数据 ,初步 实现 了 系统 自动 挖掘 ,根据 系 
统 内 现 有 课程 资源 构建 原始 知识 书 ,基于 平台 推理 引擎 所 产生 的 相关 学 科 知 识 和 学 科 知识 
关系 构建 原始 知识 树 ; 通过 教师 .教材 .用户 行为 数据 实现 了 需求 预 判 和 个 性 化 学 习 , 通 过 
不 断 迭 代 提升 了 精度 。 

2. 个 性 化 学 习 与 指导 

学 生 可 按照 系统 推荐 进行 学 习 , 教 师 和 家 长 可 以 及 时 了 解 学 生 对 知识 点 的 掌握 情况 ,发 
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图 4-10 线 上 评估 


现 薄弱 方向 ,进行 个 性 化 指导 。 学 生 按 图 索 怠 快速 掌握 课程 涉及 知识 点 ,形成 学 生 个 性 化 学 
习 路 径 和 知识 图 谱 , 实 现 个 性 化 学 习 , 解 决 了 当前 学 生 、 家 长 及 教师 的 痛 点 需求 。 

3. 线 上 教育 资源 评估 

现 阶段 未 对 教育 资源 进入 线 上 设立 统一 的 门槛 和 标准 ,缺乏 对 教育 资源 的 评估 ,致使 线 
上 教育 资源 质量 参差 不 齐 。 评 估 体 系 使 得 资源 相关 方 能 够 便捷 地 看 到 权威 专家 的 定性 、 定 
量 评定 ,直观 地 看 到 同类 网 络 资源 排 行 榜 , 也 能 够 看 到 学 习 者 的 主观 评价 以 及 客观 评价 ,党 
握 某 门 具体 网 络 课程 的 学 习 者 数量 和 受 欢 迎 程度 .掌握 某 门 课程 的 具体 特色 以 及 网 络 学 习 
的 时 间 周期 等 规律 ,从 而 为 资源 使 用 者 提供 指导 ,为 资源 制作 者 提供 建议 ,为 资源 运营 者 提 
供 依据 ,为 资源 研究 者 提供 参考 ,对 于 引导 学 习 者 .资源 制作 者 资源 运营 者 以 及 资源 研究 者 
有 着 重要 意义 ,对 于 网 络 教育 的 发 展 将 起 到 积极 的 推进 作用 。 

4. 中国 移 动 大 数据 应 用 现存 问题 

由 于 技术 ,数据 系统 限制 ,用 户 隐私 和 商业 模式 不 明确 等 问题 ,目前 大 数据 应 用 只 处 在 
探索 阶段 ,主要 遇 到 以 下 问题 。 

(1) 系统 分 散 建设 ,难以 实现 资源 共享 。 经 营 分 析 、 信 令 监 测 、 上 网 日 志 留存 等 众多 数 
据 系统 分 专业 建设 ,其 中 部 分 系统 还 分 省 建设 ,造成 资源 无 法 共享 。 

(2) 数据 处 理 种 类 多 ,单一 技术 难以 实现 。 各 大 数据 系统 数据 模型 不 统一 ,只 具备 结构 
化 数据 处 理 能 力 ,无 法 支持 非 结构 化 . 半 结 构 化 数据 处 理 ,无 法 满足 互联 网 业务 发 展 要 求 。 

(3) 如 何 避 免 隐私 泄露 。 人 们 对 于 隐私 问题 越 来 越 重视 ,数据 公司 掌握 大 量 数据 和 数 
据 制造 者 要 求 隐私 权 之 间 的 矛盾 ,使 得 大 数据 应 用 变 得 困难 。 

(4) 尚未 确立 商业 运营 模式 。 掌握 的 数据 很 多 ,但 是 这 些 数据 应 该 怎样 应 用 、 给 谁 用 、 
应 用 收益 是 否 可 以 抵消 数据 开发 分 析 的 成 本 ? 
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5. 中 国 移动 大 数据 应 用 发 展 方向 

第 一 ,在 市 场 层面 ,通过 大 数据 分 析 用 户 行为 ,改进 产品 设计 ,并 通过 用 户 偏 好 分 析 , 及 
时 ,准确 且 有 针对 性 地 开展 营销 与 维系 ,不 断 改 善 用 户 体验 ,增加 用 户 信息 消 费 以 及 对 运营 
商 的 黏度 ; 第 二 ,在 网 络 层面 ,通过 大 数据 分 析 网 络 流 量 、 流 向 变化 趋势 ,及 时 调整 资源 配 
置 , 同 时 还 可 以 分 析 网 络 日 志 , 进 行 全 网 优化 ,不 断 提升 网 络 质 量 和 网 络 利 用 率 ; 第 三 ,在 企 
业经 营 层 面 ,可 以 通过 业务 、 资 源 、 财 务 等 各 类 数据 的 综合 分 析 , 快 速 准确 地 确定 公司 经 营 管 
理 和 市 场 竞 争 策略 ; 第 四 ,在 业务 创新 层面 ,在 保障 用 户 隐 私 的 前 提 下 ,可 以 对 数据 进行 深 
度 加 工 , 对 外 提供 数据 分 析 服 务 , 为 企业 创造 新 的 价值 。 





第 三 篇 ”大 数据 ,价值 创新 的 土壤 


亚洲 首富 孙 正 义 说 过 ;“ 每 个 人 都 有 大 脑 ,但 不 是 每 个 人 都 有 智慧 ; 每 个 人 
都 有 眼睛 ,但 不 是 每 个 人 都 有 眼光 ; 每 个 人 都 有 双手 ,但 不 是 每 双手 都 能 把 握 机 
会 ; 机 会 永远 都 是 给 那些 有 智慧 、\ 有 眼光 .有 勇气 有 准备 的 成 功 者 而 准备 的 !” 
大 数据 的 应 用 可 以 成 为 每 个 人 的 最 强大 脑 ,数据 中 所 北 含 的 “智慧 ”和 可 预见 的 
“眼光 ”就 是 为 有 勇气 的 人 做 准备 最 好 的 机 会 。 

“数据 不 是 黄金 ,不 是 石油 , 却 是 未 来 新 经 济 发 展 的 土壤 。 在 这 个 前 所 未 有 
的 时 代 ,大 数据 成 为 一 种 重要 资源 ,推动 创业 创新 。" 一 一 涂 子 汶 
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使 -ee-e 


随 着 互联 网 的 日 益 普 及 ,人 们 对 互联 网 技术 的 利用 率 越 来 越 高 ,由 此 而 来 的 大 数据 对 社 
会 的 各 行 各 业 都 带 来 很 大 变化 ,人 们 正 步 人大 数据 时 代 。 在 企业 营销 中 ,如何 利 用 大 数据 发 
掘 用 户 需求 .精准 找到 目标 用 户 群 从 而 形成 强 有 力 的 营销 方案 ,是 为 其 带 来 发 展 机 遇 的 关键 
所 在 。 


5.1 大 数据 营销 


大 数据 营销 是 指 通过 互联 网 采集 大 量 的 行为 数据 ,首先 帮助 广告 主 找 出 目标 受众 ,以 此 
对 广告 投放 的 内 容 .时 间 ,形式 等 进行 预 判 与 调配 ,并 最 终 完 成 广告 投放 的 营销 过 程 。 

大 数据 营销 , 随 着 数字 生活 空间 的 普及 ,全 球 的 信息 总 量 正 呈 现 爆 炸 式 增长 。 基 于 这 个 
趋势 之 上 的 ,是 大 数据 、 云 计算 等 新 概念 和 新 范式 的 广泛 兴起 ,它们 无 疑 正 引领 着 新 一 轮 的 
互联 网 风潮 。 


5.1.1 精准 营销 


1999 年 ,美国 的 菜 斯 特 。 伟 门 提出 了 精准 营销 (Precision Marketing) 的 概念 。2005 
年 , 非 利 普 。， 科 特 勒 (Philip Kotler) 在 其 全 球 巡 回 演讲 论坛 上 宣布 ,精准 营销 将 是 营销 传播 
的 新 趋势 。 科 特 勒 在 其 畅销 书 Principles of Marketing 中 ,首次 将 基于 互联 网 的 精准 营销 
理论 融入 其 中 ,他 认为 日 新 月 异 的 科技 ,使 一 些 公司 勇于 从 传统 的 大 众 传媒 沟通 方式 转移 到 
更 加 有 针对 性 目标 市 场 的 互动 模式 ,以 此 来 不 断 提高 沟通 的 效果 和 效率 。 并 提出 “对 于 营销 
来 说 ,将 沟通 个 性 化 ,在 正确 的 时 间 , 对 正确 的 人 ,表达 并 且 做 出 正确 的 事情 ,是 至 关 重 
要 的 。” 

简单 来 说 ,精准 营销 就 是 要 做 到 5 个 合适 : 在 合适 的 时 间 、 合 适 的 地 点 ,将 合适 的 产品 
以 合适 的 方式 提供 给 合适 的 人 ,如 图 5-1 所 示 。 这 与 人 际 交往 中 的 男女 恋爱 是 比较 相似 的 ， 
必须 是 在 对 的 时 间 遇 到 对 的 人 。 

1. 精准 营销 的 特点 

(1) 精准 营销 真正 贯彻 了 消费 者 导向 的 基本 原则 。4C 理论 的 核心 思想 , 便 是 企业 的 全 
部 行为 都 要 以 消费 者 需求 和 欲望 为 基本 导向 。 精 准 营销 作为 这 一 大 背景 下 的 产物 ,强调 的 
仍然 是 比 竞 争 对 手 更 及 时 .更 有 效 地 了 解 并 传递 目标 市 场所 期 待 的 满足 。 这 样 ,企业 要 迅速 
而 准确 地 掌握 市 场 需求 , 则 离 消 费 者 越 近 越 好 。 这 是 由 于 ,一 方面 ,信息 经 过 多 个 环节 的 传 
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合适 的 
时 间 





图 5-1 精准 营销 


播 . 过 滤 ,必然 带 来 自然 失真 ,这 是 由 知觉 的 选择 性 注意 .选择 性 理解 .选择 性 记忆 选择 性 反 
馈 和 选择 性 接受 所 决定 的 ; 另 一 方面 ,由 于 各 环节 主体 利益 的 不 同 ,他们 往往 出 于 和 白 身 利益 
的 需要 而 过 分 夸大 或 缩小 信息 ,从 而 带 来 信息 的 人 为 失真 。 精 准 营销 绕 过 复杂 的 中 间 环 节 ， 
直接 面 对 消 费 者 ,通过 各 种 现代 化 信息 传播 工具 与 消费 者 进行 直接 沟通 ,从 而 避免 了 信息 的 
失真 ,可 以 比较 准确 地 了 解 和 掌握 他 们 的 需求 和 欲望 。 

(2) 精准 营销 降低 了 消费 者 的 满足 成 本 。 精 准 营销 是 渠道 最 短 的 一 种 营销 方式 ,由 于 
减少 了 流转 环节 ,节省 了 昂贵 的 店铺 租金 ,使 营销 成 本 大 为 降低 ,又 由 于 其 完善 的 订货 配送 
服务 系统 ,使 购买 的 其 他 成 本 也 相应 减少 ,因而 降低 了 满足 成 本 。 

(3) 精准 营销 方便 了 顾客 购买 。 精 准 营销 商 经 常 向 顾客 提供 大 量 的 商品 和 服务 信息 ， 
顾客 不 出 家 门 就 能 购 得 所 需 物品 ,减少 了 顾客 购物 的 麻烦 ,增进 了 购物 的 便利 性 。 精 准 营销 
实现 了 与 顾客 的 双向 互动 沟通 ,这 是 精准 营销 与 传统 营销 最 明显 的 区 别 之 一 。 

2. 精准 营销 的 实现 

大 数据 时 代 之 前 ,企业 一 般 仅 能 从 CRM(Customer Relationship Management, 客 户 关 
系 管理 ) 或 BI(Business Intelligence, 商 务 智 能 ) 系 统 中 获得 顾客 信息 .市场 促销 、 广 告 活 动 、 
展览 等 结构 化 数据 以 及 企业 官网 的 一 些 数 据 。 但 这 些 信息 只 能 达到 企业 正常 营销 管理 需求 
的 10%, 还 需要 其 他 85% 的 数据 ,诸如 社交 媒体 数据 、 邮 件数 据 、 地 理 位 置 音 视频 等 这 类 以 
图 片 .视频 等 方式 存在 的 信息 数据 等 , 才 足 够 给 出 一 个 重要 洞察 和 发 现 规律 。 大 数据 技术 进 
一 步 提高 了 算法 和 机 器 分 析 的 作用 ,使 得 这 类 数据 在 竞争 激烈 的 市 场 中 日 显 宝 贵 . 作 用 
突出 。 

图 5-2 所 示 ,大 数据 时 代 ,实现 精 准 营销 主要 有 如 下 三 部 曲 。 

第 一 步 : 知己 ,意味 着 知道 自己 产品 的 定位 是 什么 ,产品 的 卖点 是 什么 等 。 

第 二 步 : 知 披 ,简单 地 说 就 是 清楚 竞争 对 手 的 情况 ,清楚 目标 用 户 的 情况 。 

第 三 步 : 作战 ,对 不 同 的 对 象 采取 不 同 的 策略 ,直击 痛 点 ,实现 转化 。 

1) 精准 的 市 场 定 位 

市 场 营 销 中 有 两 个 著名 理论 : 一 个 是 2 : 8 法 则 , 即 企业 80% 的 收益 来 自 20% 的 用 户 ， 
不 同 的 客户 会 给 企业 带 来 不 同 的 价值 ; 另 一 个 是 "长 尾 理论 ”, 只 要 存储 和 流通 的 渠道 足够 





制定 营销 策略 
-人 一 确定 营销 对 象 
~ 确定 营销 渠道 
确定 营销 方式 


# 客户 行为 分 析 ( 知 彼 ) 分 伯 


构建 用 户 标签 
= = 分 析 用 户 需求 和 偏好 

~ 确定 服务 对 象 

= 确定 服务 方式 


DP 历史 数据 吉 光 (知己 ) ”局 只 


构建 产品 标签 

= 引入 数据 分 析 挖掘 

= 自身 产品 定位 及 卖点 

识别 自身 竞争 力 


图 5-2 精准 营销 的 实现 步骤 


大 ,那些 之 前 被 认为 冷门 或 不 易 销售 的 产品 共同 占据 的 市 场 份额 就 可 以 和 那些 数量 不 多 的 
热卖 品 所 占据 的 市 场 份额 相 匹 敌 甚至 更 大 。 

当 企 业 准 备 将 产品 推 向 市 场 时 ,必须 先 找 到 准确 的 市 场 定 位 ,我 的 产品 是 什么 ? 它 的 客 
户 到 底 是 哪些 人 ? 如 何 能 够 精确 地 找到 目标 客户 ? 这 些 都 是 精准 的 市 场 定位 所 必须 思 
考 的 。 

2) 精准 的 客户 分 析 

数据 的 价值 在 于 分 析 , 利 用 大 数据 技术 ,可 以 对 互联 网 中 的 用 户 行为 , 即 用 户 的 网 络 消 
费 习 惯 和 行为 模式 进行 深入 研究 。 

一 是 互联 网 站 利用 Cookie 技术 捕捉 和 定位 用 户 ID, 同 时 锁定 该 ID ,追踪 他 在 其 他 类 型 
的 网 站 的 行为 轨迹 ,将 零散 片段 拼合 出 该 用 户 的 特征 ,再 根据 用 户 的 注册 身份 和 互动 分 享 内 
容 , 判 断 其 身份 特征 .生活 方式 和 关系 圈子 ,最 后 再 借助 移动 互联 网 技术 分 析 其 实时 的 地 理 
位 置 绘制 出 更 立体 .更 实时 的 用 户 画 像 。 

二 是 建立 企业 与 用 户 间 的 新 型 互动 关系 ,打破 以 往 的 “ 自 上 而 下 ”一 对 多 ”的 线性 关系 ， 
建立 个 体 间 的 “一 对 一 ”实时 互动 。? 

3) 精准 的 策略 与 更 高 的 用 户 体验 

大 数据 根据 消费 者 的 “行为 轨迹 ”, 分 析 其 消费 需求 ,能 够 进一步 判断 其 关联 需求 ,挖掘 
其 潜在 需求 ,对 其 消费 需求 进行 预测 ; 再 通过 具有 针对 性 的 关联 推荐 ,促成 有 效 购买 和 消 
费 。 零 售 业 巨 头 沃尔玛 通过 大 量 消费 者 购买 记录 分 析 ,发 现 男性 顾客 在 购买 婴儿 尿布 时 , 常 
常会 顺便 搭配 几 瓶 啤酒 来 牺 劳 自己 ,于 是 推出 "啤酒 和 尿布 ”捆绑 销售 的 促销 手段 ,直接 带动 
这 两 样 商品 的 销量 ,成 为 大 数据 营销 的 经 典 案例 。 

在 以 市 场 导向 、 消 费 者 为 中 心 的 营销 新 时 代 , 要 想 获 得 收益 ,企业 就 必须 关注 客户 价值 。 








@ ” 胡 江 涛 . 大 数据 营销 : 从 精准 到 实效 []]. 郧 阳 师 范 高 等 专科 学 校 学 报 ， 2014, 34(6): 56-59. 
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客户 价值 的 实现 才 可 能 带 给 企业 丰厚 的 利润 和 回报 。 当 然 ,只 有 当 客 户 的 需求 转化 为 公司 
价值 时 ,企业 才 是 真正 满足 了 客户 需求 ,而 这 必须 通过 客户 体验 ,来 表明 他 的 需求 。 由 此 可 
见 , 以 消费 为 导向 ,关注 消费 个 体 体验 就 是 精准 营销 中 要 实现 更 高 的 客户 体验 的 真 诺 。 


5.1.2 精准 广告 


广告 , 即 广 而 告 之 之 意 。 广 告 是 为 了 某 种 特定 的 需要 ,通过 一 定形 式 的 媒体 ,公开 而 广 
泛 地 向 公众 传递 信息 的 宣传 手段 。 宽 通 广 告 全 国运 营 总 监 宋 琼 表示 ,我 们 生活 一 个 广告 充 
斥 的 年 代 , 在 众多 的 屏幕 当中 ,电视 媒体 能 够 覆盖 到 中 国 大 多 数 的 居民 ,在 白天 和 晚上 所 表 
现 出 的 数据 是 相 类 似 的 ,互联 网 改变 了 长 期 以 来 仅 作 为 传统 电视 补充 的 角色 定位 ,拓展 了 自 
身 的 商业 价值 。 如 何 科学 有效 地 找到 目标 受众 ,如 何 合理 地 整合 媒介 资源 ,如 何 真 正 地 精 
准 投放 广告 是 产业 链 里 面 各 个 环节 思想 的 关键 问题 。 

2006 年 ,百度 风向 标 般 洞悉 了 网 络 搜索 给 予 互 联网 界 乃 至 全 球 的 重大 影响 ,在 首届 百 
度 世 界 大 会 上 公布 了 创新 的 广告 形式 一 精准 广告 ,以 让 广告 呈现 且 仅 呈 现在 想 要 呈现 的 
人 面前 为 目标 ,如 图 5-3 所 示 。 











“每 个 来 到 百度 的 人 都 有 自己 不 同 的 兴趣. 
“百度 可 以 记录 划分 析 每 个 网 民 的 搜索 和 浏览 行为 ， 从 而 分 析 其 兴趣 所 在 
“不 同 的 人 ,根据 其 兴趣 点 不 同 ， 看 到 的 广告 也 是 不 同 的 . 


图 5-3 百度 精准 广告 的 实现 原理 


大 数据 与 云 计算 时 代 的 到 来 ,为 海量 数据 存储 ` 处 理 提供 了 强大 的 技术 驱动 与 支撑 。 通 
过 对 浏览 器 Cookie(Cookie 就 是 网 上 服务 器 为 了 辨认 某 用 户 的 计算 机 ,暂时 存放 在 该 用 户 
计算 机 上 的 一 点 儿 资 料 )、 用 户 注 册 数 据 、 用 户 行为 数据 等 记录 的 抓 取 , 分 析 用 户 的 消费 者 属 
性 数据 (包括 基础 属性 ,行为 属性 和 心理 属性 ), 再 利用 其 他 途径 丰富 用 户 数据 维度 ,定量 与 
定性 结合 ,细致 分 析 每 一 位 用 户 的 基础 信息 、 行 为 与 心理 特征 ,精准 广告 应 用 的 一 系列 技术 
可 以 实现 广告 的 个 性 化 定制 投放 。 


5.2 实时 竞价 广告 
随 着 互联 网 的 快速 发 展 ,横幅 、 弹 窗 、 悬 浮 窗 \ 文 本、 图 片 . 视 频 等 各 种 类 型 广告 扑面 而 


来 ,广告 行业 也 越 来 越 呈 现 出 媒体 多 元 化 .用 户 碎片 化 等 特点 。 对 广告 精准 化 的 要 求 一 直 以 
来 都 是 广告 业 最 关注 的 核心 问题 , 即 如 何 将 互联 网 广告 在 合适 的 时 间 以 有 效 的 方式 传递 给 
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目标 人 群 。 


”2015 年 , 中国 搜 宗 
引擎 广告 收入 市 场 规 
模 为 682.4 亿 元 , 同 
比 增长 32.2% , 其 中 
搜索 关键 词 广告 收入 
占 比 72.2%， 





图 5-4 中 国 核 心 企 业 网 络 广 告 投放 市 场 细 分 


“ 告 主 投放 广告 时 ,着重 考虑 成 本 收益 的 问题 就 凸显 出 来 了 ,为 了 在 适当 的 情况 下 以 合 
理 的 竞价 策略 和 模式 来 投放 广告 ,以 保证 投入 的 收益 , 便 催生 了 精准 营销 下 的 RTB 广告 竞 
价 模式 。 

RTB(Real Time Bidding) 是 一 种 以 互联 网 大 数据 为 背景 的 实时 网 络 广 告 竞价 购买 模 
式 。 它 融合 了 大 数据 技术 ,将 数据 挖掘 和 预测 应 用 到 展示 广告 上 ,与 传统 购买 形式 相 比 , 它 
是 在 每 个 广告 展示 曝光 的 基础 上 进行 竞价 , 即 对 每 一 个 页 面 访问 (Page View,PV) 进 行 竞 
价 , 谁 出 价 高 , 谁 的 广告 就 会 被 这 个 PV 看 到 。 

RTB 的 兴起 和 发 展 有 效 地 降低 了 广告 投放 成 本 ,提高 了 媒体 的 收益 率 和 广告 主 的 投资 
回报 率 ,避免 了 无 效 到 达 , 从 粗放 的 购买 固定 广告 位 全 面 曝光 转换 成 面向 具体 独立 用 户 的 精 
准 投 放 。 例 如 ,单独 访客 记录 (Cookie) IJP 地 址 (Internet Protocol Address) 或 用 户 身 份 
(ID) ,在 一 定 程度 上 实现 了 互联 网 广告 用 户 的 个 性 化 投放 管理 。 


5.2.1 RTB 广告 投放 关键 技术 


RTB 实时 竞价 是 一 种 利用 人 和 群 定向 ,在 数 以 百 万 计 的 网 站 上 ,针对 每 一 个 用 户 的 网 上 
行为 进行 评估 以 及 出 价 的 竞价 技术 。 这 种 实时 竞价 模式 允许 广告 卖 价 根据 活动 目标 、 目 标 
人 群 以 及 费用 门槛 等 因素 ,对 每 一 个 广告 及 每 次 广告 展示 的 费用 进行 竞价 。 当 用 户 每 次 打 
开 网 页 时 ,广告 主根 据 广告 交易 平台 提供 的 用 户 数 据 进 行 分 析 并 判断 ,随后 决定 是 否 对 该 次 
展现 竞价 ,以 及 出 多 少 价钱 去 竞争 ,如 果 竞 价 成 功 ,就 将 会 在 此 访问 者 的 访问 过 程 中 出 现 该 
广告 主 所 投放 的 广告 。 在 这 个 过 程 中 ,广告 主 本 身 对 数据 的 理解 ,使 用 和 分 析 存 在 一 定 的 局 
限 性 和 制约 ,还 需要 一 定 的 第 三 方 平台 支持 。 

1，Web 挖掘 

Web( 网 络 ) 挖 掘 是 指 应 用 数据 挖掘 技术 ,针对 互联 网 页 面 数据 进行 分 析 与 处 理 ,提取 出 
隐 含 在 其 中 的 .人 们 事先 不 知道 的 但 是 潜在 有 用 的 信息 和 知识 的 过 程 。Web 挖掘 分 为 三 
类 : 内 容 挖掘 、 结 构 挖 掘 和 使 用 挖掘 。 在 RTB 广告 投放 模式 中 ,主要 应 用 内 容 挖掘 来 搜索 
和 抓 取 关键 字 和 页 面 重要 信息 ,以 此 来 充当 沟通 用 户 与 广告 主 的 一 个 桥梁 ,完成 广告 的 推荐 
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排名 。 

Web 数据 纷繁 复杂 ,首先 需要 对 数据 进行 清洗 和 预 处 理 ,主要 包含 用 户 识别 ,会 话 识别 
和 路 径 补充 。 用 户 一 般 是 通过 Cookie 来 识别 的 ,不 同 了 ,不 同 浏览 器 都 被 认为 是 不 同 的 用 
户 , 在 能 够 得 到 用 户 的 唯一 专属 数据 的 情况 下 .也 能 够 跨 终端 IP 等 进行 用 户 的 识别 。 

2. 协同 过 滤 

协同 过 滤 是 基于 集体 智慧 的 一 种 典型 的 方法 ,通过 与 个 体 相 似 的 其 他 多 个 用 户 的 兴趣 
和 爱好 来 推测 目标 用 户 的 喜好 ,通过 群体 合作 的 方法 来 帮助 别人 找到 所 需 的 内 容 。 协 同 过 
滤 常 被 用 于 电子 商务 推荐 系统 中 ,分 析 用 户 兴趣 ,在 用 户 群 中 找到 指定 用 户 的 相似 (兴趣 ) 用 
户 ,综合 这 些 相似 用 户 对 某 一 信息 的 评价 ,形成 系统 针对 该 指定 用 户 对 于 此 信息 的 喜好 程度 
预测 。 

在 分 析 用 户 行为 和 预测 用 户 喜 好 时 ,主要 通过 搜索 关键 字 和 他 所 浏览 页 面 中 包含 的 关 
键 字 提取 出 用 户 行为 偏好 ,结合 Web 页 数据 和 用 户 历史 数 据 来 构建 用 户 画 像 ,综合 用 户 画 
像 和 行为 偏好 ,进行 广告 项 目的 匹配 ,并 充分 考虑 用 户 .兴趣 .广告 三 个 方面 的 因素 。 协 同 过 
滤 以 其 出 色 的 速度 和 健壮 性 ,在 全 球 互联 网 领域 炙手可热 。 


5.2.2 RTB 的 生态 圈 


RTB 的 产生 ,标志 着 广告 行业 从 卖 广 告 位 、 卖 时 间 到 卖 专属 用 户 、 卖 场景 的 转变 ,从 固 
定价 格 (如 按 展示 量 CPM. 按 点 击 量 CPC 付费 等 模式 ) 到 实时 竞价 的 智能 化 投放 ,从 单一 系 
统 到 将 受众 .媒体 .广告 主 三 方 整合 的 竞价 投放 模式 ,满足 了 企业 广告 主 个 性 化 、 精 确 化 、 多 
样 化 的 需求 ,同时 也 考虑 用 户 需求 ,注重 用 户 体验 ,实现 了 品牌 与 效果 的 统一 发 展 。 

虽然 RTB 可 以 定位 人 群 ,但 也 需要 像 搜索 关键 字 一 样 定位 用 户 意图 ,所 以 其 效果 的 提 
升 也 只 是 相对 于 一 般 展示 广告 而 言 。RTB 的 核心 优势 主要 有 两 点 : 实时 竞价 ; 智能 投放 。 
这 都 需要 有 相应 的 平台 技术 ,而 国内 对 于 RTB 算法 发 展 尚 处 于 一 个 相对 不 太 完善 的 阶段 。 
在 广告 的 投放 中 ,广告 竞价 并 不 是 一 次 就 结束 了 , 而 是 一 个 持续 优化 的 过 程 ,其 中 对 于 竞价 
算法 和 推荐 优化 也 都 有 更 高 的 要 求 。 

RTB 广告 的 出 现 再 次 证 实 了 广告 是 “科学 的 ”,RTB 得 以 迅速 发 展 , 很 大 程度 上 是 凭借 
“大 数据 ”的 支持 。 抛 开 广 告 内 容 设 计 因 素 ,这 里 主要 对 广告 的 中 下 游 阶段 一 一 广告 媒介 购 
买 及 投放 过 程 进 行 分 析 。 通 过 Cookie、IP、ID、 点 击 行为 等 数据 ,借助 云 计算 等 技术 可 以 对 
网 民 的 人 口 特征 属性 、 浏 览 行为 .历史 行径 等 多 种 交叉 维度 的 详细 数据 进行 考量 和 计算 , 整 
理 出 大 量 的 消费 者 数据 ,作为 营销 决策 的 重要 依据 来 源 ,具有 极 高 的 参考 价值 和 应 用 价值 。 

RTB 凭借 大 数据 的 模式 ,真正 做 到 了 用 数据 说 话 ,与 用 户 真 切 沟通 。 运 用 真实 数据 ,分 
析 真 实数 据 ,通过 强大 的 整理 分析、 计算 功能 使 数据 真正 变 为 营销 分 析 的 有 效 依据 。RTB 
模型 就 是 从 实际 出 发 ,根据 用 户 行为 量 身 为 其 打造 的 广告 环境 ,其 科学 的 方法 比 传统 互联 网 
广告 方式 有 着 更 多 的 长 处 。 

目前 全 球 网 民 数 已 经 突破 30 亿 。 而 根据 中 国 互联 网 络 信息 中 心 (CNNIC) 发 布 的 第 37 
次 《中国 互联 网 络 发 展 状况 统计 报告 ,截至 2015 年 12 月 月 底 , 中 国 网 民 数 量 达 到 6. 88 亿 。 
数量 庞大 的 网 民 反 映 了 现代 人 生活 的 习惯 ,上班 在 互联 网 上 ,下 班 在 移动 互联 网 上 ”的 状态 
正 是 现代 人 生活 的 真实 写照 。 消 费 者 通过 互联 网 建立 起 来 一 个 全 球 的 社区 生活 ,任何 人 留 
下 的 痕迹 都 是 体现 个 人 商业 价值 的 重要 参考 。 


从 互联 网 广告 领域 看 ,目前 国内 在 线 实时 网 络 广 告 已 经 形成 了 完整 的 生态 环境 ,广告 位 
提供 方 、 广 告 交 易 平台 ,广告 投放 商 和 广告 主 等 整个 广告 价值 链 的 参与 方 在 不 断 丰 富 和 完 


善 。 从 图 5-5 中 可 以 看 到 整个 生态 环境 的 构成 关系 。 
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图 5-5 中国 程序 化 广告 技术 生态 图 
(数据 来 源 : RTBChina) 


1. RTB 模式 的 所 需 技术 平台 构成 

1 DSP 

DSP(Demand-Side Platform, 需 求 方 平 台 ) 就 是 为 有 广告 投放 需求 的 广告 
机 构 而 设立 的 平台 。 需 求 方 平台 汇集 了 各 种 广告 交易 平台 广告 网 络 .供应 a 甚至 媒 
体 的 库存 ,允许 广告 客户 和 广告 机 构 更 方便 地 访问 ,以 及 更 有 效 地 购买 广告 库存 。 这 个 平台 
存在 的 意义 在 于 帮助 广告 主 在 互联 网 上 的 众多 媒体 及 媒体 形式 下 进行 广告 投放 ,各 家 DSP 
都 会 通过 各 种 技术 手段 做 出 一 个 系统 ,便于 广告 主 在 该 平台 上 投放 和 管理 活动 。 在 竞价 方 
面 各 DSP 都 会 有 独特 的 逻辑 和 算法 ,在 人 群 的 定义 方面 ,DSP 会 在 系统 中 将 每 个 Cookie 上 
打上 标签 ,通过 标签 组 合 的 方式 定义 相关 人 和 群 ,帮助 广告 主 找 到 相应 的 目标 受众 。 

DSP 从 投放 效果 来 看 ,最 大 的 特点 在 于 可 以 帮助 广告 主 实现 智能 化 、 合 理化 地 购买 广 
告 流 量 。 通 过 DSP, 广 告 主 可 以 有 效 找到 目标 受众 ,通过 数据 分 析 进 行 合理 的 出 价 及 投放 ， 
大 大 地 提高 了 效率 。 在 RTB 模式 中 ,DSP 需要 有 一 个 强大 的 基础 设施 和 资源 来 为 广告 主 
实现 在 广告 交易 平台 中 的 迅速 竞价 。 因 为 在 实现 一 次 竞价 的 过 程 中 , DSP 平台 只 有 几 十 毫 
秒 的 时 间 , 并 且 在 这 段 时 间 内 ,DSP 还 需要 分 析 很 多 的 数据 ,最 终 还 要 上 传 给 网 络 广告 交易 
平台 ,如 果 在 这 几 十 毫秒 内 DSP 不 能 完成 这 些 程序 ,网 络 广告 交易 平台 将 被 认为 是 不 能 接 
受 的 投标 响应 超时 ,广告 主 的 广告 就 无 法 被 展现 出 来 。 在 DSP 系统 中 ,会 以 用 户 基础 为 主 ， 
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来 完成 DSP 竞价 函数 的 确定 。DSP 采用 基于 数据 的 用 户 定向 技术 ,将 网 络 交 易 平台 传输 来 
的 每 一 次 曝光 机 会 进行 详细 的 数据 分 析 ,通过 严密 的 逻辑 关系 和 算法 ,最 终 决定 是 否 对 这 次 
展现 机 会 进行 竞价 展示 。 

这 一 平台 拥有 强大 的 数据 资源 ,并 且 可 以 通过 科学 的 计算 方法 帮助 广告 主 选择 所 需要 
的 数据 ,从 而 可 以 避免 广告 主 的 投资 浪费 ,从 理论 上 实现 广告 主 预算 零 浪费 的 目的 。 因 为 这 
些 数据 的 分 析 直 接 影响 着 广告 主 投放 的 广告 效果 .广告 主 选择 数据 做 出 定价 时 所 需 的 就 是 
DSP。 在 国内 的 主要 DSP 有 品 友 、 聚 效 、 亿 玛 、 新 数 网 络 、 悠 易 互 通 、 易 传媒 、 广 点 通 等 。 

2) SSP 

供应 方 即 指 广告 位 的 提供 方 媒体 , 同 广告 主 在 购买 广告 时 需要 DSP 一 样 ,互联 网 媒体 
在 卖 广 告 的 时 候 也 需要 一 个 管理 平台 ,也 就 是 SSP(Sell-Side Platform, 供 应 方 平台 )。SSP 
让 媒体 主 也 介入 到 广告 交易 中 ,实现 相对 精准 的 人 群 定 向 ,智能 地 管理 和 帮助 媒体 整理 和 储 
存 广 告 资源 并 进行 合理 的 投放 、 优 化 。SSP 的 价值 在 于 帮助 网 络 媒 体 实现 其 广告 资源 优化 ， 
提高 其 广告 资源 整合 价值 ,从 而 整体 提升 媒体 成 本 效率 。 

供应 方 平台 能 够 让 数字 广告 发 行商 和 互联 网 媒体 的 广告 库存 鲜 活 起 来 。 通 过 SSP, 数 
字 广 告发 行商 及 互联 网 媒体 都 可 将 自己 的 剩余 能 力 有 效 地 利用 起 来 。 因 为 通过 RTB 模式 
投放 广告 ,广告 的 位 置 已 经 没有 找到 这 个 人 的 相关 属性 重要 了 ,在 RTB 模式 中 ,广告 位 的 优 
劣 并 不 能 绝对 地 说 明 投 放 的 效果 好 坏 。 也 就 是 说 ,在 RTB 模式 中 ,互联 网 媒体 将 自己 的 广 
告 位 通过 SSP 进行 售卖 ,从 而 达到 更 高 的 经 济 效益 。 现 在 ,国内 的 主要 SSP 有 品 友 和 好 
耶 等 。 

3) DMP 

DMP(Data-Management Platform ,数据 管理 平台 ) 作 为 数据 提供 及 管理 的 平台 ,在 实 
时 竞价 广告 中 也 至 关 重 要 。 我 们 知道 ,在 大 数据 背景 下 ,RTB 能 够 实现 的 依据 就 是 基于 海 
量 数据 的 分 析 计 算 ,DMP 的 作用 就 是 管理 一 切 与 用 户 数据 有 关 的 部 分 ,将 所 有 与 有 关 目 标 
受众 的 数据 打通 ,实现 对 目标 受众 的 重新 定向 。 

数据 服务 商 可 以 基于 网 上 数据 基础 ,运用 大 数据 工具 ,对 互联 网 用 户 的 基本 数据 及 相关 
的 行为 进行 分 析 ,刻画 用 户 特征 ,完成 用 户 画像 ,进而 做 到 每 个 用 户 特 征 的 数据 化 ,建立 完善 
的 用 户 标签 系统 。 数 据 服 务 商 可 以 获取 得 到 全 网 的 用 户 数据 ,具有 覆盖 面 广 . 种 类 多 、 体 量 
大 、 质 量 高 等 优点 ,结合 实时 的 采集 分 析 系统 ,进行 海量 的 并 发 运算 ,实现 多 维度 的 数据 处 
理 , 提 供 多 维度 的 用 户 标签 ,包括 用 户 画 像 标 签 ` 行 为 标签 .兴趣 标签 `. 实 时 标签 和 历史 标签 
等 标签 数据 。 

数据 管理 平台 ,通过 广告 交易 平台 (Ad-Exchange) .广告 供应 方 平台 (SSP) 和 需求 方 平 
台 (DSP) ,帮助 广告 行 供应 商 和 广告 主 ,完成 个 性 化 推荐 、 实 时 竞价 (RTB) 以 及 广告 投放 等 
多 种 服务 ,最 终 使 得 媒体 推出 的 广告 更 精准 ,广告 转化 率 更 高 。 

市 场 上 的 DMP 整体 可 以 分 为 第 一 方 DMP 和 第 三 方 DMP。 所 谓 第 一 方 DMP, 是 广告 
主 的 私有 DMP ,收集 整合 的 是 广告 主 的 第 一 方 数据 ,包括 广告 数据 .官网 数据 .EDM 数据 、 
CRM 数据 等 ,广告 主 拥有 系统 的 唯一 控制 权 和 使 用 权 。 而 所 谓 第 三 方 DMP .控制 权 和 使 用 
权 一 般 归 DMP 运营 商 所 有 ,其 中 收集 整合 的 数据 不 属于 任何 一 个 广告 主 独 有 ,对 于 广告 主 
来 说 属于 第 三 方 数据 。 目 前 国内 独立 DMP 的 发 展 还 比较 薄弱 ,因而 有 很 多 DSP 会 做 自己 
私有 的 DMP 以 此 来 收集 更 多 的 Cookies 积累 数据 ,进而 吸引 更 多 的 广告 主 。 目 前 国内 主要 








的 DMP 有 百度 DMP.、 阿 里 妈妈 ,、 广 点 通 、 易 传媒 、 秒 针 系 统 、 安 客 诚 缔 元 信 、Admaster 等 。 

4) Ad Exchange 

在 RTB 模式 中 ,网 络 广告 交易 平台 又 起 着 特殊 的 作用 。 在 网 络 广告 交易 平台 中 ,首先 
是 将 媒体 的 广告 位 通过 数据 分 析 的 方式 进行 整合 分 类 。 网 络 广告 交易 平台 在 RTB 模式 运 
行 中 发 挥 了 更 多 的 特效 。 在 该 模式 下 ,网 络 广告 交易 平台 整合 在 线 媒体 广告 位 资源 ,将 其 分 
析 并 分 类 ,然后 广告 主 可 以 通过 自己 的 需求 ,在 平台 中 选择 自己 需要 的 数据 进行 竞价 ,最终 ， 
网 络 广告 交易 平台 将 广告 位 售卖 给 出 价 最 高 的 广告 主 。 而 这 种 数据 的 购买 ,其 实 是 广告 主 
在 选择 数据 的 同时 ,就 是 在 选择 一 定量 的 具有 这 种 数据 的 独立 访客 (Unique Visitor, UV)， 
即 独立 卫 地 址 。 可 以 理解 为 广告 主 在 RTB 模式 中 购买 的 是 一 个 具有 特定 数据 的 UV。Ad 
Exchange 将 会 把 某 一 特定 用 户 已 经 单 击 某 一 特定 网 站 的 广告 位 公布 出 来 , 交 由 DSP 为 广 
告 主 做 出 竞价 决定 ,AdExchange 在 这 个 广告 位 投放 广告 的 广告 主将 是 出 价 最 高 的 那个 。 
RTB 模式 的 运行 是 在 广告 交易 平台 上 实现 的 ,所 以 RTB 模式 产业 链 中 最 主要 的 也 就 是 广 
告 交易 平台 。 现 在 ,主要 的 广告 交易 平台 有 谷歌 DoubleClick、 阿 里 巴巴 的 Tanx、 上 腾讯 tae、 
Sohu Sina 等 。 

2. RTB 模式 的 运作 流程 

RTB 模式 的 具体 过 程 是 , 当 用 户 单 击 一 个 网 页 ,网 页 中 实时 竞价 的 “按钮 ”就 被 打开 了 ， 
并 在 100ms 内 迅速 完成 。 

数据 服务 商 的 DMP 在 用 户 之 前 浏览 网 页 时 早已 记录 下 其 浏览 行为 ,DSP 在 投放 前 期 
做 了 充足 的 准备 ,例如 ,在 广告 主 网 站 或 者 活动 页 面 加 上 代码 ,在 投放 的 前 两 周 时 间 里 ,收集 
来 过 广告 主 网 站 或 者 活动 页 面 的 Cookies, 并 记录 下 来 。DSP 将 用 户 浏 览 网 页 的 行为 进行 
了 精心 的 处 理 , 以 让 广告 主 容易 理解 的 方式 呈现 出 来 ,广告 主 了 解 了 该 用 户 的 特征 ,分 析出 
了 相关 信息 ,如 该 用 户 的 性 别 、 年 龄 、. 爱 好、 之 前 都 浏览 过 哪些 类 别 的 网 站 等 信息 。 广 告 主 选 
择 是 否 竞价 ,结果 就 会 在 瞬间 知晓 ,出 价 最 高 的 广告 主将 获得 这 次 展现 广告 的 机 会 ,而 竞 得 
的 价格 将 是 出 价 第 二 名 的 竞价 价格 再 加 一 分 钱 。 

当 投放 正式 开始 时 ,各 环节 在 RTB 模式 运作 过 程 中 紧密 合作 。SSP 将 广告 位 资源 集中 
在 一 起 ,便于 管理 ,每 当 有 广告 位 和 Cookie 出 现 就 会 向 Ad Exchange 发 出 讯号 ,告知 其 广告 
位 置 有 空缺 ,可 以 竞价 。Ad Exchange 每 当 出 现 一 个 展示 机 会 都 会 向 DSP 发 出 信息 ,DSP 
除了 应 用 以 往 的 投放 数据 和 对 人 和 群 属性 的 分 类 数据 ,在 系统 中 自动 帮助 广告 主 竟 价 。DMP 
在 此 过 程 中 可 以 帮助 DSP 丰富 人 和 群 数 据 , 因 为 DMP 专门 做 数据 的 整理 工作 ,会 帮助 DSP 
更 加 合理 地 做 出 出 价 判断 。 

用 户 浏 览 任何 网 页 时 , 随 着 页 面 加 载 几乎 都 会 出 现 广告 。 按 照 传 统 做 法 ,如 果 同 时 在 两 
家 门户 网 站 的 运动 频道 页 购买 了 广告 位 ,就 不 得 不 为 两 个 网 页 重合 的 用 户 买单 。 实 时 竞价 
希望 通过 让 营销 人 员 购 买 目标 受众 群 而 改变 游戏 规则 。 因 此 ,竞价 胜出 的 营销 人 ,最 后 展示 
的 广告 通常 是 “定制 "的 一 一 在 正确 的 时 间 、 地 点 展现 给 正确 的 用 户 , 这 就 是 为 什么 在 上 晴天 男 
性 用 户 可 能 看 到 更 多 的 敞篷 车 广告 。 因 为 更 具 相 关 性 ,实时 竞价 广告 容易 吸引 用 户 的 兴趣 。 
如 果 广 告 主 知道 某 用 户 曾经 访问 过 他 们 的 网 页 ,就 会 在 该 用 户 访 问 时 用 数字 标记 该 用 户 的 
计算 机 (Cookie)。 广 告 主 会 在 随后 的 广告 位 竞价 中 付出 更 高 的 价格 ,再 次 接触 这 样 的 用 户 。 

5-6 所 示 为 程序 化 广告 信息 交易 核心 流程 图 。 
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图 5-6 程序 化 广告 信息 交易 核心 流程 图 


5.2.3 RTB 投放 工作 内 容 


1. SSP 的 媒体 资源 管理 

当 用 户 浏览 页 面 时 ,SSP 的 媒体 资源 管理 获得 用 户 浏览 信息 ,将 广告 资源 挂 起 ,并 对 Ad 
Exchange 广告 交易 平台 发 出 用 户 访问 信号 ,DMP 开始 对 来 访 用 户 进行 行为 分 析 。SSP 需 
要 设 定 广告 展现 的 个 数 与 轮 播 次 数 ,根据 用 户 的 注意 力 热 图 以 及 关键 字 出 现 的 位 置 合理 分 
配 广告 展示 的 位 置 ,当然 ,也 要 综合 考虑 展示 广告 的 大 小 。 

2.DMP 用 户 行为 分 析 

当 Ad Exchange 收 到 用 户 访 问 信 号 时 ,DMP 会 针对 用 户 的 浏览 信息 进行 分 析 , 这 种 基 
于 大 数据 背景 下 的 数据 挖 气 需 要 容纳 海量 的 信息 ,DMP 在 法 律 允 许 的 范围 内 ,统一 处 理 用 
户 信息 ,使 得 第 三 方 平台 具有 同一 规格 的 分 析 指 标 ,各 广告 主 处 理 起 来 更 具 相 对 性 和 参考 
性 。DMP 分 析 用 户 行为 时 可 以 从 两 个 方向 进行 分 析 , 一 是 从 用 户 的 实时 需求 入手 ,对 用 户 
搜索 的 关键 字 进 行 最 优 匹配 分 析 : 二 是 从 用 户 的 内 在 行为 挖掘 入 手 , 对 用 户 历 史 行为 进行 
广告 推荐 。 因 此 ,DMP 综合 考虑 了 用 户 过 去 的 、 现 在 的 和 未 来 潜在 的 广告 项 目 , 且 分 别 从 用 
户 自身 和 其 他 用 户 的 角度 对 每 位 用 户 进行 细 化 剂 析 ,有 助 于 增加 用 户 与 DSP 匹配 的 广度 ， 
在 一 定 程度 上 增加 曝光 广告 的 多 样 性 。 

大 数据 的 应 用 主要 在 这 个 环节 发 生 , 通 过 数据 挖掘 和 数据 分 析 确 定 相 应 用 户 ,打通 广告 
与 用 户 精准 匹配 。 

3. DSP 竞价 策略 分 析 


DSP 竞价 策略 分 为 两 种 ,一 种 是 固定 竞价 策略 ,一 种 是 智能 竞价 策略 。 

固定 竞价 策略 : 即 只 要 Ad Exchange 发 出 竞价 邀请 ,一 律 进行 竞价 。 竞 价 金额 可 以 通 
过 以 下 几 种 方式 实现 : 固定 价格 ` 周 期 价格 等 。 设 定 这 种 竞价 策略 的 目的 主要 是 为 了 服务 
于 中 小 企业 或 刚 起 步 企业 的 短期 竞拍 投放 ,这 在 一 定 程度 上 缓解 了 部 分 数据 冷 启动 的 问题 。 

智能 竞价 策略 : 广告 主 在 DSP 端 会 参考 DMP 分 析 得 到 的 用 户 指标 来 制定 自己 的 竞价 
价格 ,而 价格 的 制定 不 仅 要 考虑 到 用 户 的 因素 ,也 必须 要 明确 广告 项 目的 投放 情况 ,进行 风 
险 预测 和 效果 评估 ,以 此 来 确定 最 合适 的 价格 。 对 于 智能 竞价 ,各 DSP 广告 主 有 自己 的 数 
据 分 析 中 心 ,通过 DMP 传递 过 来 的 某 用 户 的 IP 可 以 识别 该 用 户 是 本 网 站 的 新 用 户 还 是 回 
访 用 户 。 若 是 新 用 户 , 则 根据 DMP 传递 过 来 的 关键 字 匹 配 排 名 、 本 网 站 推荐 广告 排名 、 关 
联 度 排 名 、 用 户 历史 活跃 度 。 
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4. Ad Exchange 交易 平台 
Ad Exchange 竞价 排名 公式 ,可 参考 淘宝 直通 车 .综合 排名 得 分 如 下 : 
竞价 排名 得 分 二 质量 得 分 X 出 价 

在 RTB 中 ,质量 得 分 为 关键 字 匹 配 度 、 协 同 推荐 项 目 评分 、 关 联 规则 支持 度 国 值 、 用 户 
历史 活跃 度 这 4 项 的 加 权 求 和 。 

实际 扣 费 的 价格 如 下 : 

广告 项 目 实际 扣 费 (元 ) 二 下 一 名 出 价 X 下 一 名 质量 得 分 /本 人 质量 得 分 十 a 元 

实际 扣 费 不 会 超过 用 户 设 定 的 出 价 。 由 于 RTB 增加 了 媒体 维度 ,各 媒体 可 分 别 制定 自 
己 的 a 值 ,一 般 a 为 0.01。 

5. 广告 展示 

Ad Exchange 交易 平台 负责 完成 交易 报价 ,SSP 接 到 交易 指 展示 相关 广告 主 的 广 

告 ,并 按照 广告 展现 效果 和 约定 的 费用 结算 方式 进行 费用 结算 。 ee 
A ` 告 有 关 的 数据 ,为 后 续 广 告 需 求 积累 数据 。 


5.2.4 RTB 应 用 场景 示例 


在 现在 的 互联 网 实时 在 线 广告 市 场 上 ,通过 对 用 户 数 据 进行 有 效 的 信息 分 析 , 可 以 进 一 
步 实现 高 效 、 精 准 的 广 告 投放 ,实现 广 告 在 适当 的 时 间 精 确 地 一 对 一 传递 到 目标 用 户 面 前 。 

简单 来 说 ,该 广告 的 商业 模式 就 是 让 广告 主 付出 合理 的 价格 ,在 "正确 ”的 时 候 , 使 * 正 
确 ” 的 广告 显示 在 “正确 ?的 目标 受众 面前 。 

某 用 户 在 某 电 商 网 站 上 近期 浏览 过 一 双 运 动 鞋 的 产品 ,DMP 通过 对 该 用 户 数据 的 反 向 
追踪 ,结合 数据 库 历史 数据 进行 匹配 和 精准 识别 ,发 现 该 用 户 为 体育 达 人 , 则 将 广告 推荐 内 
容 调整 为 运动 类 广告 .运动 鞋 等 ,将 数据 反馈 到 SSP。SSP 将 该 用 户 信 息 发 布 在 RTB 上 ,在 
DSP 上 的 一 系列 广 告 商 在 RTB 上 展开 竞价 , 某 广告 商 最 后 获得 了 广告 展现 权 , 结 果 是 当 该 
用 户 下 次 访问 有 相应 SSP 广告 展示 位 的 媒体 时 ,就 能 收 到 该 广告 商 精准 的 关于 运动 鞋 的 广 
告 ,如 图 5-7 所 示 。 
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图 5-7 应 用 场景 示意 图 
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从 可 获得 数据 的 内 容 来 看 ,互联 网 服务 提供 商 还 可 以 通过 对 用 户 的 基本 特征 、 网 站 浏览 
行为 .下 载 行为 .增值 业务 行为 等 进行 分 析 , 了 解 用 户 的 各 项 行为 特征 ,从 而 为 广告 产业 客户 
提供 相应 的 服务 。 

以 常见 的 手机 用 户 的 行为 分 析 指 标 为 例 , 主 要 包括 如 表 5-1 所 示 的 几 类 。 


表 5-1 手机 用 户 的 行为 分 析 指标 














用 户 基本 特征 性 别 、. 年 龄 .籍贯 .手机 类 型 

网 站 浏览 行为 常用 网 站 ,浏览 内 容 、 手 机 购物 

下 载 行为 (内 容 ) 音乐 类 别 .软件 类 别 ,书籍 类 别 、 游 戏 类 别 
增值 业务 行为 短信 ,流量 ,咨询 .话费 ,导航 


互联 网 服务 提供 商 可 以 通过 对 用 户 的 相关 网 络 行为 .业务 使 用 行为 的 数据 分 析 ,发现 特 
定 用 户 群 体 的 业务 使 用 情况 或 特定 行为 与 特定 业务 之 间 的 使 用 关联 情况 ,进而 可 以 对 用 户 
提供 精准 的 增值 业务 服务 推荐 ,如 对 客户 群体 进行 细 分 ,针对 其 短期 行为 提供 相应 的 增值 业 

其 他 场景 下 ,如 银行 金融 机 构 借助 海量 数据 ,创建 数据 分 析 挖掘 为 核心 的 精准 营销 平 
台 , 实 现 银行 信用 卡 客户 .品牌 互相 联动 的 全 方位 精准 服务 ,为 特定 用 户 智 能 化 地 推荐 有 
价值 的 业务 和 相关 金融 服务 ; 电 商 平台 通过 用 户 的 数据 进行 分 析 挖掘 ,确定 每 个 用 户 的 具 
体 数据 标签 ,根据 用 户 的 实时 需求 做 到 精准 的 个 性 化 商品 推荐 。 

大 数据 与 云 时 代 的 到 来 ,为 海量 数据 存储 处理 提供 了 强大 的 技术 驱动 与 支撑 。 基 于 精 
准 营销 的 RTB 广告 模式 借助 大 数据 的 强大 优势 ,将 大 数据 技术 、 数 据 挖掘 和 预测 应 用 到 展 
示 广 告 上 ,通过 对 海量 的 结构 化 和 非 结构 化 的 数据 进行 分 析 处 理 , 运 用 真实 数据 ,分 析 真实 
数据 ,通过 强大 的 整理 分析、 计算 功能 使 数据 真正 变 为 营销 分 析 的 有 效 依据 。 在 原 有 的 以 
覆盖 面 为 核心 的 广告 模式 的 基础 上 采取 精准 推荐 、. 实 时 竞价 的 方式 实现 了 广告 效果 的 优化 
提升 。 

大 数据 技术 的 应 用 为 广告 效果 的 精准 推荐 .广告 交易 的 实时 处 理 提供 了 很 好 的 解决 方 
案 。 但 目前 受 限 于 处 理 技术 和 分 析 数 据 的 能 力 ,广告 推荐 .交易 并 未 实现 精确 的 实时 交易 ， 
从 数据 发 现 到 处 理 匹 配 、 推 送 请 求 再 到 交易 平台 完成 处 理 , 还 是 有 一 定 的 时 间 延 迟 , 且 在 精 
准 程度 上 也 尚 存 较 大 的 局 限 性 ,有 待 于 对 分 析 处 理 模型 和 数据 计算 能 力 进 一 步 的 探索 。 相 
信 随 着 大 数据 计算 的 发 展 ,在 精准 营销 广告 的 推荐 上 将 会 有 更 大 的 提升 ,真正 能 够 实现 在 适 
当 的 时 间 将 适当 的 广告 推荐 给 适当 的 用 户 的 场景 ,而 此 时 也 能 够 更 好 地 实现 广告 主 \ 交 易 平 
台 和 用 户 之 间 三 方 共 赢 的 局 面 。 

RTB 得 以 发 展 成 熟 缘 于 互联 网 广告 与 互联 网 数据 的 紧密 结合 ,没有 这 个 结合 就 没有 
RTB 的 今天 。 在 大 数据 应 用 中 ,RTB 能 够 异军突起 是 因为 互联 网 广告 与 互联 网 数据 同 在 
数据 领域 之 内 ,专业 相通 ,它们 的 结合 顺理成章 、 顺 水 推 舟 、 顺 势 而 成 。 但 一 般 来 讲 , 各 行 各 
业 与 数据 应 用 的 专业 之 间 相 距 甚 远 ,并 不 存在 这 样 的 近水楼台 。 如 和 欲 在 各 行 各 业 发 展 大 数 
据 应 用 ,首先 需要 各 行 各 业 的 各 级 各 类 业务 人 员 或 领导 能 提出 数据 应 用 的 需求 ,不 能 提出 需 
求 , 便 不 会 有 后 面 数据 应 用 的 出 现 。 


大 数据 应 用 需求 隐藏 在 各 行 各 业 的 各 类 业务 之 中 ,需要 千 千 万 万 的 业务 人 员 把 这 些 数 
量 庞大 且 价值 与 作用 巨大 的 需求 发 掘 出 来 ,别人 是 不 可 能 蔡 代 他 们 的 。 发 展 大 数据 或 数据 
分 析 的 唯一 途径 就 是 通过 全 行业 海量 的 恰当 培训 ,逐渐 提升 各 级 各 类 业务 人 员 的 数据 意识 
与 素质 ,普及 面 越 大越 好 ,培训 的 水 平 越 “高 ” 越 好 。 发 展 大 数据 或 数据 分 析 应 用 是 一 个 过 
程 ,这 个 过 程 的 长 短 取决 于 近乎 全 民 的 数据 意识 与 素质 提升 的 速度 ,这 是 一 个 巨大 的 工程 ， 
不 可 能 一 跃 而 就 。 一 万 年 太 久 ,只 争 朝夕 。 
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2009 年 9 月 10 日 ,阿里 巴巴 十 周年 庆典 上 ,阿里 巴巴 云 计算 团队 以 独立 身份 出 现 , 命 
名 为 “阿里 云 ” 的 子 公 司 正式 成 立 。 在 2015 云 栖 大 会 上 ,阿里 云 发 布 全 新 品牌 口号 及 品牌 广 
告 一 一 "为 了 无 法 计算 的 价值 ”(Creating value beyond computing) ,深入 地 阐释 阿里 云 的 品 
牌 定 位 及 品牌 价值 2。 

2012 年 7 月 ,为 挖掘 大 数据 的 价值 ,阿里 巴巴 集团 在 管理 层 设立 “首席 数据 官 "一 职 , 负 
责 全 面 推进 “数据 分 享 平 台 ” 战 略 , 并 推出 大 型 的 数据 分 享 平 台 一 一 “上 聚 石塔 ”, 为 天 猫 、 淘 宝 
平台 上 的 电 商 及 电 商 服务 商 等 提供 数据 云 服 务 。 随 后 ,阿里 巴巴 董事 局 主席 马云 在 2012 年 
网 商 大 会 上 发 表演 讲 , 称 从 2013 年 1 月 1 日 起 将 转型 重 塑 平台 、 金 融和 数据 三 大 业务 。 马 
云 强 调 :“ 假 如 我 们 有 一 个 数据 预报 台 ,就 像 为 企业 装 上 了 一 个 GPS 和 雷达 ,你们 出 海 将 会 
更 有 把 握 ." 因 此 ,阿里 巴巴 集团 希望 通过 分 享 和 挖掘 海量 数据 ,为 国家 和 中 小 企业 提供 价 
值 。 此 举 是 国内 企业 最 早 把 大 数据 提升 到 企业 管理 层 高 度 的 一 次 重大 里 程 碑 。 阿 里 巴巴 也 
是 最 早 提出 通过 数据 进行 企业 数据 化 运营 的 企业 。 如 图 6-1 所 示 为 阿里 大 数据 体系 。 
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图 6-1 阿里 大 数据 体系 


在 传统 认 知 中 必 计 算 " 一 词 对 于 大 多 数 人 而 言 太 过 遥远 和 冰冷 , 那 是 必须 花费 力气 去 破 
解 的 代码 世界 ,与 日 常生 活 的 交集 看 起 来 是 那么 微乎其微 。 然 而 ,阿里 云 认为 ,计算 的 终极 
意义 是 发 挥 数 字 的 力量 ,去 解决 问题 .创造 价值 .让 数字 不 止 于 数字 ,赋予 数 字 以 人 的 喜 怒 户 
乐 。6 年 的 光阴 更 见证 了 计算 对 生活 、 对 社会 、 对 每 一 个 普通 人 产生 的 潜移默化 的 影响 , 那 
是 科技 理性 与 人 文 感性 的 精彩 碰撞 ,在 和 谐 之 中 共享 无 法 被 衡量 的 价值 。 


四 ”阿里 云 推 全 新 Slogan: 为 了 无 法 计算 的 价值 LOL]. 新 浪 科技 ,2015. 10. 14, http://tech. sina. com. cn/it/2015- 
10-14/doc-ifxirmqc5116488. shtml. 


阿里 云 的 服务 群体 中 ,活跃 着 微 博 、 知 乎 魅族 、 锤 子 科技 、 小 咖 秀 等 一 大 批 明星 互联 网 
公司 。 在 天 猫 双 11 全 球 狂 欢 节 、12306 春运 购 票 等 极 富 挑战 的 应 用 场景 中 ,阿里 云 保持 着 
良好 的 运行 纪录 。 此 外 ,阿里 云 广 泛 在 金融 、 交 通 、 基 因 、 医 疗 、 气 象 等 领域 输出 一 站 式 的 大 
数据 解决 方案 。 阿 里 构建 起 了 一 个 通过 多 维 数据 来 描绘 用 户 画 像 的 数据 王国 ,每 个 用 户 既 
是 这 个 数据 王国 中 的 数据 生产 者 ,也 是 数据 应 用 的 服务 对 象 。 


6.1 “ 滴 滴 打 车 ” 助 市 民 出 行 无 忧 


城市 打车 场景 是 “衣食 住 行 用 ”5 大 刚 需 领域 之 一 ,但 在 现实 社会 中 一 直 存 在 乘客 打车 
难 、 出 租车 空 驶 时 间 长 等 难题 ,而 “ 快 的 打车 ”App 利用 移动 互联 网 专注 于 产品 与 大 数据 ,为 
乘客 和 司机 提供 更 好 的 出 行 解决 方案 ,解决 中 国 大 众 出 行 需 求 。“ 快 的 打车 ”的 出 现 已 经 改 
变 了 传统 模式 下 用 户 出 行 的 行为 习惯 ,以 及 传统 出 租车 行业 的 运营 方式 。 目 前 ,“ 快 的 打车 ” 
覆盖 国内 360 个 城市 ( 含 中 国 香港 ) , 据 艾 瑞 最 新 统计 ,“ 快 的 打车 ”用户 覆 盖 比 例 超过 60%， 
用 户 数量 过 亿 , 是 国内 最 大 的 出 租车 叫 车 软件 。 

2012 年 5 月 “ 快 的 打车 "成立,2013 年 11 月 ,“ 快 的 打车 ”并 购 “ 大 黄蜂 打车 ”,2014 年 7 月 
正式 推出 服务 于 中 高 端 用户 的 用 车 品牌 "一 号 专车 ”,2015 年 2 月 “ 快 的 打车 ”与 “ 滴 滴 打 车 ” 合 
并 。 现 在 的 “ 快 的 打车 "已 经 从 最 初 的 打车 软件 成 长 为 全 国 最 大 的 移动 出 行 平台 ,并 与 支付 宝 、 
高 德 地 图 、 铁 路 管家 、 国 航 、 如 家 连锁 酒店 等 各 类 出 行 场景 深度 合作 ,并 以 数据 驱动 为 重点 , 进 
一 步 提升 出 租车 ,专车 运营 效率 ,丰富 用 户 出 行 体验 ,在 这 个 万 亿 级 的 市 场 快 速成 长 壮大 。 

根据 艾 瑞 咨询 (2016 年 中 国 移动 端 出 行 服务 市 场 研究 报告 》 显 示 ,截止 到 2015 年 年 底 ， 
中 国 移动 端 出 行 服务 用 户 乘 客 数量 总 计 接 近 四 亿 , 滴 滴 专 车 (快车 ) 用 户 覆 盖 数 量 占 比 高 达 
88.4% ,同时 在 中 国 专车 (快车 ) 移 动 端 出 行 服务 行业 中 , 滴 滴 专车 (快车 ) 日 均 订单 量 占 比 达 
到 84.1%, 滴 滴 出 行 已 成 为 中 国 服务 内 容 最 丰富 的 移动 出 行 pp。 

图 6-2 预测 了 从 2012 一 2027 年 整个 出 行 方式 占 比 ,第 一 个 是 步行 ,第 二 个 是 自驾 ,第 三 
个 是 一 些 公 共 交 通 , 大 家 坐 的 地 铁 、 公 交 等 。 这 张 图 最 典型 的 变化 就 是 自驾 出 行 与 公共 交通 
出 行 ,在 2027 年 时 ,达到 97% 左 右 。 这 就 带 来 两 个 问题 ,第 一 ,自驾 场景 怎么 解决 ,第 二 ,我 
如 果 坐 公共 交通 ,比如 出 租车 ,大巴 .火车 ,如 何 能 最 佳 匹配 我 的 需求 。“ 分 秒 ? 之 间 的 多 轮 筛 
选 ,数据 完成 的 用 户 画 像 系统 ,人 们 点 滴 的 打车 轨迹 正在 汇聚 成 一 个 全 新 的 商业 生态 。 
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图 6-2 出行 方 式 趋势 图 


@ 2016 年 中 国 移动 端 出 行 服务 市 场 研究 报告 [R]. 艾 瑞 咨询 ,2016. 
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图 6-3 ”O20O 供需 智能 匹配 


6.1.1 典型 案例 


“互联 网 十 交通 ”与 传统 交通 的 最 大 不 同 在 于 创建 了 基于 互联 网 全 网 信息 的 多 边 供需 平 
台 , 并 利用 移动 终端 不 间断 地 收集 供需 数据 (人 、 车 、 货 的 地 理 空间 等 交通 配套 信息 ) ,调度 供 
需 双 方 并 实时 交流 ,采用 大 数据 进行 实时 分 析 匹 配 ,采用 云 计算 以 质 优 价 廉 的 计算 能 力 全 天 
候 支撑 “互联 网 十 交通 ”供需 平台 上 全 民 出 行 、 全 国货 运 的 智能 服务 。 打 车 软件 承载 的 是 人 、 
时 间 ,空间 多 维度 结合 的 生活 场景 ,个 性 化 推荐 更 加 投 其 所 好 ,贴近 实际 ,转化 率 会 高 很 多 ， 
如 图 6-4 所 示 。 

需求 数据 全 网 调度 ， 实 时 匹配 。 供给 数据 

交通 治理 





互联 网 + 交通 病 有 限 资源 
供需 平台 


动态 需求 


云 计 算 + 大 数据 + 移动 终端 


000. 


图 6-4 互联 网 十 交通 供需 模型 


【 例 】 周 五 晚上 6 点 40 分 , 李 菲 (化 名 ) 在 离 家 不 到 3km 的 地 方 , 用 打车 软件 叫 了 一 辆 
出 租车 ,在 不 到 lmin 的 时 间 、 系 统 通 知 了 附近 43 辆 出 租车 之 后 显示 被 抢 单 ,与 此 同时 , 李 非 
的 手机 上 收 到 一 条 短信 :“ 我 们 额外 支付 了 司机 11 元 ,这 部 分 费用 由 土豪 快 的 买单 .” 

这 次 打车 给 李 非 带 来 的 愉悦 感 可 想 而 知 : 之 前 望 眼 欲 穿 的 苦 等 ,现在 则 分 秒 可 得 。 不 
过 李 菲 或 许 不 知道 的 是 ,从 她 按 下 快 的 界面 的 叫 车 键 到 系统 启动 用 车 通知 "分 秒 " 之 间 , 快 的 
后 台 已 经 完成 了 多 轮 筛选 : 根据 用 户 画 像 和 用 车 需求 ,匹配 位 置 合适 的 出 租车 ,再 结合 实时 
的 地 理 位 置 和 运 能 状况 确定 给 后 者 的 补贴 金额 ,这 些 计算 都 是 在 毫秒 内 实现 。 甚 至 在 更 早 
之 前 , 快 的 已 经 根据 她 的 历史 打车 的 行为 特点 ,将 其 划 归 到 了 “局 丝 ” 的 标签 之 下 ,由 此 她 才 
频繁 收 到 金额 不 小 的 代金 券 。 


6.1.2 案例 分 析 


1. 用 户 画像 , 属 丝 和 土豪 的 不 同行 为 轨迹 

快 的 “土豪 式 "补贴 背后 ,其 实 也 有 着 它 自己 的 精打细算 。 就 如 快 的 公司 技术 副 总 裁 朱 
项 对 记者 所 说 的 ,行业 已 经 从 粗暴 的 跑马 轿 地 走 入 了 精耕细作 的 时 代 , 要 花 更 少 的 钱 获取 更 
多 的 用 户 。 

精准 营销 的 前 提 是 对 用 户 的 清晰 认 知 。 以 简单 的 代金 券 发 放 为 例 , 快 的 的 历史 数据 呈 
现 出 两 大 类 4 种 不 同 的 消费 习惯 一 一代 人 金 券 敏感 型 发 代金 券 才 用 ,发 代金 券 用 得 更 多 ; 代 
金 券 不 敏感 型 : 发 与 不 发 都 用 ,发 代金 券 也 不 用 。 在 快 的 的 用 户 画 像 系 统 中 ,上 述 4 种 群体 
会 被 分 别 冠 以 属 丝 .普通 ,中 产 、 土 豪 的 标签 。 针 对 4 类 客 群 的 运营 策略 也 会 全 然 不 同 ,最 直 
接 的 就 是 代金 券 的 刺激 频率 以 及 刺激 金额 ,而 对 “代金 券 " 免 疫 的 土豪 群体 , 则 更 多 地 需要 在 
服务 上 做 文章 。 

而 在 实际 场景 中 ,影响 乘客 对 应 用 软件 的 使 用 黏度 的 因素 要 远 比 代金 券 复杂 得 多 ,在 这 
种 情况 下 , 快 的 对 用 户 的 “贴身 跟踪 "就 能 及 时 发 现 薄弱 环节 ,因此 从 用 户 打开 软件 到 退出 使 
用 ,其 间 的 每 一 步 情况 都 被 快 的 记录 在 案 , 如 哪 一 天 退出 的 , 哪 一 步 退 出 的 ,退出 之 后 “ 跳 转 ” 
到 什么 软件 等 。 

据 此 , 快 的 也 实现 了 用 户 另外 一 个 纬度 的 归 类 ,分 清 哪 部 分 是 忠实 用 户 , 哪 部 分 可 能 是 
潜在 的 忠实 用 户 ,哪些 则 是 已 经 流失 的 ; 更 进一步 来 看 流失 的 原因 , 因为 代金 券 没 有 了 流 
失 ? 软件 体验 不 好 流失 ? 还 是 等 车 时 间 太 长 而 流失 ? 这 些 都 是 下 一 步 精准 营销 的 依据 。 

而 对 于 快 的 而 言 ,用 户 分 析 不 仅 是 针对 乘客 ,也 包括 司机 、 出 租车 公司 的 所 有 相关 方 。 
尽管 基础 信息 大 同 小 异 ,都 包括 人 的 基本 信息 、 信 用 .行为 信息 等 ; 也 有 一 些 通用 的 刺激 手 
法 ,比如 积分 ,礼物 等 。 不 过 ,不 同 的 用 户 画 像 就 对 应 了 不 同 的 刺激 程度 ,而 结合 不 同 的 场 
景 ,还 有 许多 特殊 的 营销 安排 。 

杭州 市 场 就 是 一 个 很 典型 的 例子 。 基 于 司机 的 地 理 位 置信 息 , 快 的 发 现 每 天 中 午 或 者 
是 每 天 晚上 10 点 以 后 ,司机 都 会 聚集 在 一 些 固定 的 地 点 ,可 能 休息 或 者 就 餐 。 所 以 快 的 就 
会 在 这 些 场所 提供 一 些 工作 餐 或 者 是 优惠 食品 ,通过 线 下 的 活动 来 提升 司机 和 快 的 的 合作 
关系 。 

2. 产品 生成 的 逻辑 : 更 精确 地 匹配 供需 

维护 好 用 户 只 是 一 个 基础 ,最 终 目的 是 为 了 打通 供需 ,生成 更 加 优化 的 服务 和 产品 。 这 
也 正 是 数据 之 于 打车 软件 此 类 的 020 行业 的 重要 性 所 在 。“ 数 据 能 解决 一 个 核心 问题 ,就 
是 做 供需 双方 的 智能 匹配 .” 朱 大 说 。 

其 实 也 很 容易 理解 ,公交 、 出 租车 .地铁 都 是 对 出 行人 群 不 同 需求 的 对 号 人 座 , 不 过 这 样 
被 朱 舌 称 之 为 "粗暴 式 "的 分 类 法 应 用 起 来 效率 低下 .以 一 个 司空 见 惯 的 打车 场景 为 例 ,在 路 
边 拦 车 ,可 能 许久 都 没有 空 车 经 过 ,或 者 是 好 不 容易 等 到 的 车 ,司机 问 了 地 址 之 后 还 可 能 拒 
载 一 -呈现 一 种 杂乱 无 章 的 状态 。 

而 在 海量 的 数据 基础 之 下 ,出行 的 需求 被 不 断 细 分 ,而 且 是 实时 匹配 。 例 如 一 个 乘客 下 
单 之 后 ,需求 方 的 用 户 图 像 和 需求 同时 被 识别 ,结合 供 方 的 车 辆 条 件 和 位 置地 图 进行 第 一 轮 
筛选 ,不 过 这 个 看 似 * 正 常 " 的 订单 却 不 一 定 符合 实际 , 因为 有 一 些 订单 发 出 来 是 司机 不 愿意 
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接 的 ,比如 高 峰 时 段 的 拥挤 路 段 , 那 么 在 这 个 时 候 就 要 进行 订单 评估 和 内 部 调节 ,结合 历史 
数据 制定 一 些 刺激 措施 、 秋 加 “乘客 自行 出 的 小 费 ” 来 诱导 司机 ,这 样 一 个 符合 供需 双方 胃口 
的 “合理 "订单 就 生成 了 ,下 一 步 要 做 的 就 是 实时 调度 ,要 考虑 当时 的 交通 情况 ,车 的 朝向 ,车 
速 .附近 是 否 有 突 发 性 事件 等 因素 ,选择 最 为 优化 的 方案 。 

比如 我 要 从 A 点 到 BB 点 ,发 送 单子 后 ,向 司机 进行 请 求 推送 。 这 里 面 涉及 一 个 简单 问 
题 ,怎么 告诉 周围 的 司机 最 方便 ? 最 简单 的 策略 是 什么 ? 有 人 说 是 距离 ,非常 正确 ! 这 个 逻 
辑 非常 简单 而 且 特 别 高 效 ,但 是 有 没有 问题 ? 当然 有 问题 ! 举 一 个 负面 例子 ,南京 这 个 城 
市 ,中 间 有 一 条 长 江 , 有 江南 和 江北 , 面 一 个 圈 计 算 离 用 户 最 近 的 司机 ,系统 自 认 为 聪明 地 把 
这 个 单子 推 给 了 江 对 面 的 司机 ,实际 上 这 里 根本 没 桥 ,直线 距离 5min ,而 实际 过 去 的 话 要 绕 
两 个 小 时 。 这 是 典型 的 逻辑 障碍 ,这 该 如 何 解决 ”这 里 就 需要 有 完善 的 路 径 规 划 能 力 , 对 路 
况 信息 .路 网 信息 ,车 辆 信息 ,甚至 是 更 细节 的 风向 风速 都 要 考虑 。 这 就 诞生 了 产品 层面 
对 大 数据 分 析 的 最 接地 气 的 需求 ,行业 内 部 叫 智 能 订单 推送 系统 。 订 单 不 再 是 这 么 简单 
的 或 者 以 比较 策 的 方法 按照 距离 往外 推送 ,而 是 结合 了 路 况 .路 径 规划 、 天 气 ,车 辆 状况 、 
车 速 . 方 向 等 一 系列 因素 考虑 。 这 套 系统 非常 方便 地 实现 了 乘客 需求 与 司机 接 单 的 智能 匹 
配方 案 。 

完成 了 以 上 的 步骤 之 后 , 快 的 才 会 把 用 车 需求 和 奖励 方案 推送 给 经 过 层 层 筛选 之 后 的 
出 租车 ,这 样 人 们 打车 的 成 功率 大 大 提升 了 ,而 且 所 用 的 时 间 更 短 .“ 这 是 以 前 所 有 的 产品 
做 不 到 的 ,因为 不 能 洞悉 消费 者 的 心理 。 在 大 数据 应 用 下 ,消费 者 和 供给 方 能 够 省 略 中 间 环 
节 直接 议价 ,这 是 一 个 模式 上 的 变革 性 的 突破 。" 而 最 终 海量 的 议价 数据 将 提炼 成 为 一 种 * 商 
业 情 报 ”, 来 推动 新 的 产品 和 新 服务 的 推出 ,比如 智能 定价 系统 ,以 从 机 场 到 望京 这 一 段 司 机 
不 愿意 接 的 单 为 例 ,可 能 70% 的 乘客 额外 加 了 20 块 钱 ,少数 人 加 了 30 块 钱 , 而 有 的 只 愿意 
加 10 块 钱 ,那么 系统 整合 分 析 以 后 会 得 出 21 元 钱 是 一 个 更 合适 的 议价 ,那么 最 终 的 定价 可 
能 消费 者 和 司机 双方 都 可 以 接受 。 

因此 ,以 这 样 的 逻辑 推导 生成 的 产品 才 更 能 有 的 放 矢 , 因 为 其 生成 不 是 来 自 于 企业 对 市 
场 的 腾 断 ,而 是 直接 提炼 于 供需 双方 的 心理 预期 和 真实 需求 。 

“回程 单 ”的 产品 创设 就 是 一 个 很 典型 的 例子 。 最 初 是 快 的 的 数据 分 析 发 现 一 个 异常 的 
数据 现象 ,就 是 司机 的 抢 单 意愿 率 在 某 一 个 时 点 会 又 然 下 滑 ,过 一 段 时 间 又 会 反弹 ,日 日 如 
此 。 通 过 对 这 个 特殊 节点 分 析 , 快 的 得 出 一 个 司机 运营 的 特殊 场景 ,就 是 司机 收工 的 时 间 ， 
接 下 来 就 是 针对 性 地 解决 ,因为 不 管 司机 是 交 班 还 是 回 家 ,肯定 有 一 个 固定 的 方向 
点 可 以 通过 历史 数据 分 析出 来 。 那 么 快 的 要 做 的 就 是 把 同样 去 往 这 个 方向 的 乘客 分 配给 对 
应 的 司机 ; 这 样 做 是 否 就 一 定 见效 ? 所 以 下 一 步 就 要 评估 效果 ,看 回程 单 是 否 真正 提高 了 
司机 的 抢 单 意愿 ,确定 之 后 才能 作为 常规 产品 推出 。 

“产品 的 细 分 应 用 场景 将 会 越 来 越 依赖 于 大 数据 分 析 , 从 数据 中 洞察 需求 与 商机 ,再 结 
合 大 数据 提供 应 用 解决 方案 ,将 变 成 未 来 产品 迭代 的 常规 运作 模式 之 一 "和 朱 磊 说 ,这 也 是 快 
的 产品 的 生成 逻辑 。 

3. 跨 界 的 数据 “火花 ” 

尽管 快 的 野心 不 小 , 想 要 构建 一 个 全 新 的 广告 “生态 ”, 不 过 这 显然 不 是 快 的 凭借 一 已 之 
力 所 能 实 现 的 ,必须 借助 于 外 部 数据 的 导入 ,这 恐怕 也 是 大 数据 应 用 最 基本 的 要 求 , 那 就 是 
开放 和 共享 。 
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与 阿里 和 美 团 等 的 合作 就 实现 了 双方 数据 的 相互 补充 “他们 缺乏 出 行 数据 ,我 们 目前 
缺失 的 是 用 户 的 消费 数据 和 信用 数据 . 朱 舌 说 。 在 此 基础 上 就 可 以 共 建 用 户 画 像 体系 : 工 
作 地 点 .家 庭 地 点 .消费 情况 .价格 敏感 度 等 。 

在 一 个 完整 的 用 户 图 像 下 ,广告 推送 就 会 更 加 精准 。 比 如 定位 到 一 个 北京 用 户 打车 去 
西单 ,在 分 析出 其 消费 偏好 的 基础 上 ,就 可 以 针对 性 地 发 送 特定 商场 特定 店铺 的 某 一 类 产品 
的 优惠 信息 。“ 量 身 定做 的 实时 实地 的 广告 价值 将 远 远 超过 传统 广告 盲目 推送 的 方式 .” 一 
些 针对 节日 的 广告 类 型 也 会 应 运 而 生 。 以 七 夕 节 为 例 ,就 可 以 首先 圈定 跟 节日 消费 相关 的 
群体 ,提前 两 天 推送 花 店 信息 ,可 以 在 节日 当天 直接 送 花 上 门 ,甚至 可 以 制造 一 些小 “浪漫 "; 
或 许可 以 设想 一 下 当 你 的 女 朋友 看 到 一 辆 豪 车 来 接 她 下 班 时 的 惊喜 ,而 车 上 还 放 着 她 喜欢 
的 音乐 ,外 加 一 束 娇艳 的 玫瑰 花 。 

完美 的 畅想 还 不 得 不 面 对 现实 中 固有 的 一 些 问题 ,就 像 朱 大 说 的 ,一 个 来 自 于 不 同 的 行 
业 标 准 和 数据 标准 所 带 来 的 数据 通用 的 难题 ,而 即便 在 技术 共享 上 不 存在 障碍 ,而 协商 机 制 
的 建立 也 将 是 一 个 漫长 的 “对 话 ”。 

“数据 的 价值 评判 每 一 家 都 是 不 一 样 的 ,那么 就 需要 跨 界 的 共 赢 机 制 的 建立 ,这 个 在 历 
中 经 验 上 是 不 存在 的 ,只 能 去 摸索 磨合 ,这 个 过 程 肯定 是 痛苦 的 ." 朱 舌 说 。 

4. 数据 驱动 模式 的 基础 : 技术 投入 

尽管 还 存在 不 少 待 解难 题 ,如 今 开始 把 关注 焦点 转向 数据 驱动 模式 的 快 的 ,都 已 经 与 
“补贴 大 战 " 时 不 可 同日 而 语 。 因 为 任何 的 新 兴业 务 ,不 论 发 展 初期 如 何 势如破竹 ,也 必然 要 
经 过 一 个 商业 模式 的 探索 和 沉淀 ,否则 最 终 会 被 * 价 格 战 " 拖 得 精疲力竭 。 

“经 过 初期 的 野蛮 生长 之 后 ,还 想 获得 跨越 式 发 展 ,就 肯定 需要 在 技术 上 的 重点 投入 。” 
曾 担任 百度 云 计 算 主 要 负责 人 的 朱 舌 ,在 快 的 带领 的 团队 主要 负责 大 数据 体系 .商业 体系 、 
基础 架构 与 新 业务 等 方向 。 

这 个 三 四 十 人 的 团队 在 最 初 的 三 个 月 ,经 过 了 朱 舌 所 说 的 * 昔 活 、 脏 活 、 累 活 的 痛苦 历 
程 ”进行 了 数据 导入、 清洗 存储、 结构 化 等 一 系列 最 基础 的 处 理 ,最 终 建成 了 快 的 的 大 数据 
体系 。 据 朱 舌 介绍 ,目前 扩建 后 团队 的 核心 力量 正在 进行 大 数据 2. 0 系统 的 研发 。 这 套 内 
部 代号 为 "地平 线 系统 ”的 大 数据 架构 ,克服 了 1. 0 系统 中 突出 的 数据 数量 与 数据 质量 、 处 理 
速度 之 间 的 矛盾 ,实现 了 数据 纯度 处理 速度 的 跨越 式 升级 。 

这 个 “超级 大 脑 "支撑 了 快 的 大 数据 应 用 所 需要 的 所 有 基础 数据 ,在 此 之 上 是 支持 产品 、 
商业 、 运 营 商业 化 的 团队 ,每 个 团队 配备 了 20 个 人 左右 。 这 样 的 架构 实际 上 避免 了 基础 数 
据 和 应 用 数据 之 间 的 “污染 "问题 ,比如 一 个 需求 场景 形成 了 A 的 画像 集合 ,其 中 结合 也 行 
业 又 会 出 现 一 个 AB 子 集 ,应 用 到 特殊 的 场景 C 之 后 又 会 形成 一 个 同时 满足 ABC 的 集合 。 
如 果 每 次 都 从 基础 数据 抽取 ,就 很 容易 影响 基础 数据 的 稳定 性 。 

清晰 的 数据 架构 对 于 “每 秒 (毫秒 ) 都 产生 海量 数据 ”的 快 的 来 说 ,重要 性 不 言 而 喻 。 而 
今 , 数 百 台 机 器 支撑 着 的 快 的 大 数据 系统 ,在 朱 舌 看 来 ,它们 就 像 是 公司 的 “心脏 ": 业务 规 
模 越 大 , 越 是 重要 。 

这 种 投入 不 是 任何 一 个 公司 都 能 够 负担 的 , 却 是 每 一 个 公司 都 应 该 及 早 想 清楚 的 ,“ 过 
早 投入 ,对 精力 和 资本 消耗 太 大 ,不 过 如 果 之 前 缺乏 考虑 ,后 面 就 要 做 很 多 工作 才能 把 之 前 
错失 的 那些 数据 漏洞 补 回 来 ." 对 于 早期 一 直 争 抢 用 户 市 场 而 忽略 了 数据 应 用 的 快 的 来 说 ， 
这 恐怕 也 是 宝贵 的 “经 验 之 谈 " 了 。 
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总 体 来 看 ,大 数据 的 应 用 对 快 的 业务 发 展 产生 了 巨大 价值 。 仅 大 数据 产生 智能 订单 这 
一 个 环节 的 优化 ,对 打车 成 功率 的 提升 幅度 ,相当 于 5 亿 巨 额 补贴 同样 的 业务 贡献 效果 。 大 
数据 前 景 的 展望 和 一 些 挑战 是 很 关键 的 ,第 一 点 就 是 大 数据 的 基础 架构 的 支持 ,未 来 的 数据 
增长 是 十 倍 或 者 百倍 ,大 数据 架构 能 否 熟练 地 运用 起 来 ,这 是 实施 关键 。 第 二 点 是 生态 圈 的 
盖 , 谈 到 大 数据 就 是 不 要 把 自己 封闭 , 快 的 打车 跟 阿 里 合作 或 者 跟 高 德 或 者 百度 地 图 合 
作 , 尽 量 开放 ,实现 共 赢 ,一 方 的 核心 价值 是 什么 , 另 一 方 的 核心 价值 是 什么 ,大 家 做 一 个 交 
换 。 第 三 点 ,跨行 业 合作 如 何 基 于 数据 统一 去 做 。 对 于 大 数据 面临 的 挑战 ,首先 要 考虑 用 户 
隐私 ,App 能 精确 定位 客户 住 哪 .消费 .信用 等 一 些 信息 ,这 些 信 息 泄露 出 来 对 人 的 影响 非 
常 大 ,这 在 最 早 设计 的 时 候 就 要 认真 考虑 并 保护 , 快 的 要 尽量 模糊 个 体 , 不 要 定位 到 单个 人 ， 
但 可 以 定位 到 一 群 人 ,例如 ,不 定位 张 三 这 个 人 是 搞 金融 的 ,但 是 国贸 这 一 群 人 是 搞 金融 的 
人 ,这 样 可 以 有 效 地 保护 用 户 隐私 。 第 四 是 整个 数据 架构 的 设计 ,因为 之 前 讲 的 内 容 已 经 比 
较 多 ,就 不 重复 了 。 


6.1.3 “ 快 的 ”的 数据 价值 


快 的 打车 的 案例 带 给 人 们 如 下 价值 启示 。 

1. 商业 价值 

“ 快 的 打车 ?是 一 家 1000 人 的 公司 ,租用 了 400 台 云 服务 器 ,两 年 时 间 创 造 了 30 亿美 元 
(公司 估 值 ) 的 奇迹 ,其 关键 在 于 充分 发 挥 了 移动 互联 网 .大 数据 、 云 计算 三 者 的 赋 能 价值 。 
智能 手机 的 普及 成 为 人 类 的 身体 器 官 延伸 ,便捷 低 成 本 地 获知 用 户 地 点 和 出 行 模式 ,人 口 密 
度 大 的 城市 中 被 压抑 的 大 众 即时 性 出 行 需求 在 技术 支撑 下 获得 完全 释放 ,应 运 而 生 的 技术 
创新 引爆 了 比美 国 更 大 的 国内 出 行 市 场 。 

2. 数据 价值 

大 数据 技术 的 创新 应 用 ,对 业务 能 够 产生 直接 价值 与 推动 力 。 大 数据 的 开发 与 运用 , 必 
须 深 入 到 业务 生产 过 程 中 ,才能 知道 哪些 内 外 部 数据 能 够 更 好 地 服务 最 终 用 户 ,大 数据 应 用 
先 咨询 设计 、 后 开发 实现 。 另 外 ,企业 的 核心 竞争 力 一 定 不 是 技术 本 身 ,而 是 基于 “移动 互联 
网 十 大 数据 十 云 计算 ”的 生态 价值 ,不同 定 位 的 企业 共享 数据 .创新 应 用 都 能 分 得 市 场 蛋糕 。 

3. 经 济 价值 

快 的 打车 有 效 地 将 出 租车 空 驶 率 从 40% 以 上 降低 到 25 % ,该 模式 的 经 济 价值 体现 在 通 
过 降低 空 驶 率 创造 市 场 价值 , 空 驶 率 每 降低 5% ,每 年 出 租车 交易 市 场 的 规模 将 增加 200 亿 
元 。 采 用 打车 软件 ,司机 不 用 空 驶 获得 足够 订单 量 ,挖掘 剩余 25% 的 出 租车 运 能 ,创造 出 几 
百 亿 的 新 市 场 价值 ,而 且 无 订单 时 节省 大 量 汽油 ,平均 一 辆 出 租车 一 天 的 空 驶 里 程 大 约 
90km, 每 天 能 省 下 几 十 块 油 费 ,又 创造 出 几 十 亿 元 的 新 市 场 价值 。 另 一 方面 ,打车 软件 出 现 
前 ,杭州 出 租车 司机 每 年 至 少 罢工 一 次 :但 有 了 快 的 打车 ,司机 收入 水 平 提高 了 ,劳动 强度 也 
趋 于 合理 , 没 人 罢工 了 。 

4. 社会 价值 

有 数据 显示 , 仅 北京 一 个 城市 内 ,使 用 快 的 打车 的 出 租车 每 年 因此 减少 的 二 氧化 碳 排放 
量 超过 8 万 吨 。 快 的 打车 在 追求 高 效率 的 互联 网 企业 中 ,关爱 弱势 群体 ,专门 成 立 了 针对 弱 
势 群体 的 “ 乐 行 联盟 ”, 并 开展 了 老人 ,孕妇 免费 接送 等 一 系列 活动 ,还 推出 了 针对 盲人 及 视 
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障 群体 的 优化 版 软件 ,中 央 电 视 台 曾 对 此 进行 了 专题 报道 。 


6.2 “ 聚 划算 ?的 智慧 营销 


阿里 巴巴 集团 COO 张 勇 说 :“ 天 猫 " 品 质 ” 淘 宝 " 万 能 ” 聚 划算 "活力 。? 聚 划算 就 是 阿 
里 巴巴 和 所 有 商家 的 “倚天 剑 ”, 曾 任 大 淘宝 CEO 的 张 建 锋 说 :“ 聚 划算 本 身 没有 商户 , 它 的 
商户 是 从 两 个 平台 里 面 选 的 ,可 能 是 淘宝 可 能 是 天 猫 .” 聚 划算 最 核心 的 价值 就 是 它 有 非常 
强 的 规模 化 的 能 力 , 走 量 。 销 售 模式 是 一 个 金字 塔 , 顶层 是 聚 划算 这 种 团购 模式 。 第 二 层次 
是 一 段 时 间 之 内 销售 很 多 商品 , 卖 光 为 止 。 第 三 层次 是 平台 模式 ,如 天 猫 、 京 东 。 团 购 是 在 
金字 塔 的 塔 尖 ,有 非常 强 的 出 货 能 力 。 有 些 商 品 需要 短 时 间 内 的 出 货 能 力 ,特别 是 生 鲜 类 。 
可 以 说 聚 划算 是 整个 集团 业务 里 最 顶尖 的 销售 方法 。 但 是 天 猫 .淘宝 、 聚 划算 ,是 一 个 有 机 
的 配合 的 过 程 。 聚 划算 网 站 是 一 个 体验 式 营销 平台 ,以 聚 新 品 ` 量 贩 团 .商品 团 为 主 ,致力 于 
给 买 家 提供 极致 性 价 比 的 商品 ,以 有 限 的 商品 打造 热门 商品 ,支撑 平均 每 日 高 UV (Unique 
Visitor, 独 立 访客 ) 访 问 下 的 高 成 交 额 和 高 售 融 率 。 

大 数据 有 两 个 强项 : 一 是 挖掘 好 的 ,二 是 发 现 坏 的 。 随 着 聚 划算 的 高 速 发 展 ,这 两 个 问 
题 衍生 出 越 来 越 多 的 大 数据 解决 方案 。 举 例 来 说 ,好 的 方面 ,通过 数据 算法 自动 挖掘 出 好 的 
招商 商家 与 商品 ,根据 兴趣 点 推荐 给 最 合适 的 消费 者 ,提高 平台 销量 ; 坏 的 方面 ,对 虚假 订 
单 进行 监控 和 预报 ,识别 秒杀 器 等 作 整 现 象 ,更 快 更 恰当 地 辅助 运营 处 理 纠纷 。 

聚 划算 平台 整个 业务 流程 可 分 为 两 部 分 招商 ”和 ”交易 导购 ”。 招 商 系统 主要 根据 一 
定 的 策略 和 工作 流程 ,选择 出 合适 的 商家 、 商 品 。 交 易 导 购 负 责 在 某 一 时 间 段 内 ,进行 前 台 
展示 ,引导 买 家 购买 。 聚 划算 一 直 在 做 数据 化 运营 ,利用 大 数据 来 决定 招商 与 导购 。 聚 划算 
的 量 特别 大 ,备货 ,生产 ,都 要 一 定 的 周期 ,这 个 周期 导致 很 多 时 效 性 强 的 商品 没有 确定 性 就 
不 敢 去 备货 。 大 数据 给 这 个 平台 带 来 了 很 多 变化 ,能 够 在 一 定 程度 上 降低 卖家 的 风险 ,根据 
卖家 申报 的 商品 合适 与 否 进行 销售 预测 。 大 数据 让 聚 划算 知道 ,什么 价位 能 卖 出 多 少 此 类 
商品 ,这 是 传统 企业 没 法 知道 的 。 所 以 聚 划算 员工 会 跟 卖 家 做 进一步 的 沟通 : 产品 要 做 哪 
些 改变 , 定 在 什么 价位 。 机 器 给 出 选择 ,人 工 进行 最 终审 核 与 确认 。 


6.2.1 商家 端 : 数据 化 招商 


在 商家 端 , 聚 划算 的 整体 运营 发 展 路 线 ,是 从 "人工 ”到 “积累 数据 ”, 从 “数据 "到 “模型 ”， 
从 “模型 "到 “自动 运营 "的 过 程 ,经 验 积累 数据 .数据 养 起 模型 ,运营 越 来 越 精准 高 效 ,历史 数 
据 判 断 哪个 品类 销售 最 好 ,预测 未 来 销量 ,给 出 最 优 商品 选择 ,审批 人 确认 决策 ,商品 团 基于 
数据 自动 化 运营 ,品牌 团 由 数据 支撑 发 挥 运营 创新 性 。 

1. 聚 划算 的 招商 流程 

如 图 6-5 所 示 , 聚 划算 的 招商 流程 包括 活动 管理 .品类 规划 、 招 商 报名 .报名 审核 、 排 其 
发 布 5 个 环节 , 却 存在 因为 人 员 经 验 等 差异 化 因素 导致 的 审核 质量 问题 .招商 与 导购 效果 问 
题 .运营 能 力 沉淀 问题 ,小 众 品类 发 现 速度 问题 .人 工 审核 量 太 大 等 问题 。 所 以 在 原 有 人 工 
流程 中 ,以 “去 运营 化 "作为 突破 口 ,加 入 了 模型 支撑 ,依靠 接 入 各 种 数据 模型 ,自动 化 执行 品 
类 规划 、 报 名 审核 两 个 步骤 ,由 活动 管理 提供 模型 输入 ( 坑 位 数 . 品 类 范围 等 ) ,模型 根据 要 求 
跑 出 数据 .自动 生成 品类 规划 、 发 起 商家 /商品 的 邀约 报名 。 
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图 6-5 数据 运营 招商 流程 图 
招商 架构 图 如 图 6-6 所 示 。 
聚 划算 规则 中 心 聚 划算 招商 流程 
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6-6 招商 架构 图 


在 整个 招商 流程 平台 上 ,规则 引擎 .数据 模型 .数据 平台 三 个 组 成 部 分 十 分 关键 。 
(1) 规则 引擎 : 是 针对 各 行业 类 目的 数据 化 运营 “执法 者 ,贯穿 整个 参 聚 商品 的 生命 


周期 , 既 要 融合 准 实时 系统 与 离线 选 品 模型 ,又 要 兼顾 运营 规则 管理 的 灵活 性 、 实 时 性 、 简 单 
性 ,而 且 降 低 离线 模型 对 规则 的 在 线 依赖 。 

(2) 数据 模型 : 是 整个 环节 的 核心 .数据 支撑 的 重点 ,关键 数据 环节 包括 数据 类 、 工 具 
类 、 算 法 类 ,数据 类 平台 需要 连接 多 个 来 源 的 数据 ,并 提供 基本 数据 查询 、 统 计 、 展 示 和 数据 
再 加 工 等 功能 ; 工具 类 包括 人 群 分 析 ,市 场 分 析 、 报 表 系统 、 人 工 选 品 等 ,需求 是 能 够 定制 各 
种 维度 或 组 合 的 数据 或 数据 报表 ; 算法 类 包括 主题 挖掘 、 算 法 选 品 、 潜 客 挖掘、 主题 创意 、 投 
放 优 化 等 ,这 类 需求 一 般 要 根据 业务 的 特点 建 模 和 优化 ,尽管 需求 不 同 ,但 底层 的 算法 模型 
和 基础 数据 具有 共性 。 

(3) 数据 平台 : 提供 完善 的 基础 选 品 维度 ,以 及 快速 整合 数据 资源 ,响应 数据 需求 的 能 
力 是 做 优 整 个 选 品 流程 的 基础 ,主要 提供 4 种 视角 的 基础 维度 特征 。 

@ 商品 维度 特征 : 基础 类 特征 (行业 、 类 目 等 ), 浏 览 成 交 类 特征 (浏览 .收藏 ,加 购 、 购 
买 及 各 项 转化 指标 ) ,运营 服务 类 特征 (上 架 时 长 、 包 邮 退 货 服 务 、 品 牌 授权 等 )。 

@ 卖家 维度 特征 : 基础 类 特征 ( 主 营 类 目 、 店 铺 类 型 . 星 级 等 ) ,浏览 成 交 类 特征 (浏览 、 
收藏 .加 购 ,购买 及 各 项 转化 指标 , 笔 单价 、 客 单价 等 ) ,运营 服务 类 特征 (开店 时 长 , 熟 客 率 、 
动 销 率 .DSR 评分 有 无 消 保 等 ) 。 

@ 图 片 维度 特征 : 基础 类 特征 ( 宽 高 比 ,边框 宽度 ) ,颜色 显著 类 特征 。 

@ 行业 维度 特征 : 店铺 在 行业 下 的 老 客 复 购 率 等 。 

2, 数据 应 用 

整个 招商 流程 中 有 4 个 比较 重要 的 数据 接 入 点 ,包括 品类 规划 、 招 商 报名 、 报 名 审核 、 商 
品 展示 ,其 中 ,数据 在 品类 规划 和 报名 审核 发 挥 较 大 作用 ,如 图 6-7 所 示 。 
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图 6-7 招商 流程 中 的 重要 的 数据 接 入 点 


) 品类 规划 : 是 招商 的 根本 ,规划 是 否 合理 .品类 范围 大 小 直接 影响 招商 质量 、 后 续 
销售 产 出 ,通过 大 数据 的 积累 ,使 用 算法 模型 结合 特定 类 目 招商 要 求 , 保 证 品类 品牌 丰富 度 
等 规则 ,生成 品类 规划 ,如 图 6-8 所 示 。 

(2) 报名 审核 : 分 为 商家 审核 和 商品 审核 ,是 聚 划算 对 商品 质量 控制 的 关键 节点 ,在 聚 
划算 发 展 历程 中 审核 共 经 历 了 以 下 三 个 主要 演化 阶段 。 

吕 小 二 选 品 : 买 手 根据 自己 的 行业 经 验 从 报名 商家 和 商品 中 挑选 ,整个 质量 把 控 和 议 
价 都 是 由 小 二 完成 ,这 导致 商品 质量 参差 不 齐 , 小 二 工作 量 巨 大 ,经 验 不 可 重用 等 问题 。 在 
2012 年 聚 划算 联合 数据 产品 部 门 发 起 了 商家 和 商品 指标 开发 项 目 , 随 着 商家 指标 、 商 品 爆 
款 分 等 指标 上 线 , 聚 划算 选 品 进 入 了 一 个 新 的 时 代 。 

@ 小 二 数据 化 选 品 : 2013 年 , 聚 划算 商家 指标 和 商品 爆 款 分 等 上 线 让 小 二 从 盲 选 的 泥 
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图 6-8 品类 规划 


潭 中 解脱 出 来 。 小 二 通过 商家 指标 和 商品 爆 款 分 等 对 报名 商家 和 商品 进行 筛选 ,小 二 的 行 
业经 验 又 反馈 到 数据 部 门 进一步 优化 算法 模型 。 随 着 广泛 使 用 ,另外 一 个 问题 逐步 凸显 出 
来 ,统一 的 商家 和 商品 指标 准确 率 浮动 很 大 ,各 个 类 目的 个 性 化 要 求 越 来 越 多 ,商品 爆 款 划 
分 迎 来 了 第 二 个 转折 点 ,算法 模型 按 类 目 拆 分 ,按照 淘 系 一 级 类 目 拆 分 为 21 个 模型 ,融入 各 
类 目 各 行业 的 特性 ,指标 的 准确 率 和 稳定 性 大 幅 提 升 , 一 切 都 准备 就 绪 了 ,可 以 开启 新 篇 章 了 。 

@ 数据 自动 化 选 品 : 2014 年 是 阿里 的 DT 元 年 ,也 是 聚 划算 数据 化 运营 的 元 年 ,通过 
大 数据 来 做 出 决策 ,让 小 二 回归 商业 ,成 为 行业 营销 专家 。 聚 划算 选 品 也 做 出 了 一 个 大 胆 的 
决定 ,通过 数据 自动 化 选 品 ,面临 的 第 一 个 问题 是 有 商家 指标 和 商品 指标 两 个 大 指标 ,还 有 
一 些 品牌 指标 等 其 他 指标 ,数据 决策 必然 只 有 一 个 决策 标准 ,合并 所 有 的 指标 ,诞生 了 新 的 
选 品 分 指标 , 选 品 分 数 也 采用 了 按 行业 类 目 特性 来 计算 权重 ,但 类 目 划分 粒度 更 细 、 更 加 合 
理 。 对 选 品 的 离线 评测 机 制 也 同步 开展 。 为 自动 化 跨 出 了 重要 的 一 步 。 面 临 的 第 二 个 问 
题 , 也 是 最 难 的 问题 : 控 价 。 淘 系 的 商品 价格 ,优惠 非常 复杂 而且 商品 同 款 非 常 多 ,要 准确 
识别 一 个 商品 的 历史 最 低 价 和 全 网 最 低 价 本 身 就 是 一 个 难题 ,自动 做 出 合理 的 议价 就 更 难 
了 。 针 对 此 问题 ,在 一 淘 产 品 库 基础 上 识别 商品 近 90 天 最 低 价 , 首 先 保 证 上 聚 商品 的 价格 
是 自身 的 最 低 价 。 虽 然 实现 了 自动 过 滤 价 格 ,不 过 合理 议价 和 保证 全 网 最 低 价 才 是 聚 划算 
的 最 终 目标 。 

聚 划算 业 务 流 程 如 图 6-9 所 示 。 

总 体 来 看 ,数据 化 运营 在 自动 化 组 织 网 站 运营 上 取得 了 一 定 的 效果 。 但 在 这 个 过 程 中 ， 
收获 更 多 的 是 对 于 数据 化 运营 的 思考 。 先 有 网 站 自身 的 定位 , 才 有 数据 化 运营 。 数 据 化 运 
营 的 核心 ,是 找到 一 系列 对 数据 获取 、 处 理 和 利用 的 方式 , 直 逼 最 终 目标 。 网 站 需要 有 一 定 
的 机 制 设计 来 与 各 个 角色 进行 数据 交互 ,模型 偏向 于 运营 经 验 的 沉淀 ,算法 是 利用 这 些 经 验 
和 数据 的 手段 。 我 们 在 看 到 数据 化 运营 这 几 个 字 的 时 候 , 很 容易 把 数据 化 运营 放 在 运营 人 
员 和 网 站 后 台 系 统 范围 来 看 ,而 不 是 学 会 “怎样 通过 数据 来 看 市 场 和 用 户 的 变化 ,怎样 通过 
数据 来 影响 或 者 改变 ,怎么 获取 更 多 更 有 用 更 真实 的 数据 并 形成 ”, 数 据 化 运营 未 来 是 设计 
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选 品 结果 表 A 区 选 品 结果 表 B | 选 品 结果 表 C | 
1 
聚 划算 业务 系统 


(异型 结 EL) (模型 结果 监控 ) 


不 
图 6-9 聚 划算 业务 流程 


一 套 有 效 的 机 制 能 获取 并 帮助 平台 以 及 各 种 角色 利用 数据 。 
6.2.2 消费 者 端 : 数据 化 导购 


在 消费 者 端 ,推荐 “好 宝贝 "的 方法 主要 是 两 个 场景 ,基于 搜索 和 非 搜索 推荐 ,前 者 是 淘 
宝 主 搜 的 方式 ,后 者 是 聚 划算 的 重点 。 因 为 消费 者 登录 无 线 端 3 一 5min 如 果 找 不 到 喜欢 的 
宝贝 就 离开 了 ,所 以 个 性 化 的 首 屏 展 示 十 分 关键 。 聚 划算 致力 于 将 最 适合 消费 者 的 商品 主 
动 推荐 过 来 ,并 提升 大 流量 在 商品 列表 、 详 情 页 的 订单 转化 率 , 基 于 偏好 推测 你 最 想 看 到 什 
么 商品 ,以 及 商品 与 商品 之 间 的 关联 推荐 (啤酒 与 尿布 相关 性 ) ,在 商品 详情 页 、 付 款 成 功 页 
“ 趁 热 打铁 "推荐 更 多 相关 宝贝 ,促进 "交叉 销售 效果。 在 无 线 端 , 比 较 私 密 的 场景 下 ,根据 
用 户 喜 好 等 个 体 因素 主导 ,将 数据 理论 与 业务 经 验 相 结合 .独创 在 线 学 习 的 “马虎 算法 ”, 使 
用 个 性 化 展示 ,将 多 个 团队 开发 的 在 线 学 习 . 个 性 化 等 算法 融合 ,不 断 优化 不 同 场景 下 的 数 
据 推荐 策略 ,成 功 将 转化 率 大 幅 提 升 。 在 PC 端 ,注重 调 性 与 氛围 ,采用 类 似 天 猫 的 “赛马 ” 
机 制 ,根据 宝贝 的 历史 表现 (点 击 率 、 销 售 额 等 多 项 复杂 因素 ), 即 某 一 时 段 的 销售 情况 ,将 评 
佑 潜力 足 的 宝贝 往 前 排放 展示 ,同样 将 订单 转化 率 提升 了 很 大 比例 。 
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聚 划算 每 天 收集 到 很 多 有 价值 的 数据 ,日 成 交 UV 和 成 交 订 单 已 经 超过 百 万 ,超过 干 
万 的 浏览 UV ,用 户 的 行为 可 以 成 为 数据 驱动 开发 很 重要 的 切入 点 ,在 此 分 享 一 些 有 趣 的 数 
据 发 现 。 

1. 购买 前 的 路 路 

博弈 论 中 有 这 样 一 个 观点 ,“ 消 费 者 的 购买 冲动 是 随 着 对 商品 接触 次 数 的 增多 而 减弱 
的 ”。 也 就 是 说 ,如 果 能 让 用 户 一 时 冲动 就 买 下 商品 ,成 交 的 可 能 性 会 大 大 增加 。 当 用 户 对 
商品 了 解 越 多 ,接触 越 多 ,也许 一 些 负面 的 东西 就 留 下 来 了 , 便 无 购买 意愿 。 当 然 , 用 户 对 商 
品 的 多 次 试探 ,其 中 的 原因 可 能 也 很 复杂 ,也 许 是 预算 不 够 ,也 许 是 本 身 就 没有 这 个 需要 , 那 
么 如 此 一 来 他 也 可 能 不 会 加 入 "购物 ”的 大 军 。 提 取 某 天 的 聚 划算 PC 交易 数据 ,并 整合 了 
当天 的 浏览 数据 ,就 成 交 前 的 用 户 浏览 次 数 和 决策 时 间 进 行 分 析 , 如 图 6-10 所 示 。 
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图 6-10 成 交 前 商品 详情 页 的 浏览 次 数 





从 图 6-10 中 可 以 看 出 , 绝 大 部 分 用 户 是 “冲动 型 * 的 。90% 左 右 的 用 户 , 在 三 次 浏览 以 
内 ,就 完成 了 下 单 和 付款 。 浏 览 次 数 的 加 权 平 均值 是 3.0, 浏 览 三 次 以 内 成 交 的 占 比 为 
389.4%( 占 有 浏览 量 的 订单 总 数 )。 

图 6-11 是 用 户 在 下 单 付款 前 的 “决策 时 间 ” 分 布 图 。 这 里 所 谓 的 决策 时 间 , 就 是 下 单 时 
间 与 当天 第 一 次 浏览 的 时 间 差 。 主 流 的 详情 页 决策 时 长 在 1 一 5min(50 一 300s) 。 时 长 的 统 
计 和 浏览 次 数 很 不 同 , 时 长 分 布 曲线 是 急速 上 升 后 缓慢 下 降 。 后 面 有 很 长 的 尾巴 ,说 明 决 策 
时 间 在 消费 者 中 差异 比较 大 ,用 平均 值 ( 平 均值 1340. 8s) 作 代表 的 意义 就 不 大 了 。 

在 完成 以 上 两 个 简单 分 析 后 ,有 一 个 问题 一 直 困 扰 着 数据 分 析 师 ,在 交易 和 日 志 记 录 
中 ,每 天 存在 着 约 5 万 一 8 万 没有 任何 浏览 记录 的 订单 (这 个 数字 在 查询 日 志 扩 展 到 成 交 前 
一 天 后 依然 没有 太 大 的 变化 ) 。 在 数据 团队 讨论 后 ,做 出 了 两 种 猜想 : 一 是 有 一 些 用 户 在 手 
机 端 加 入 购物 车 ,然后 在 PC 端 进行 的 付款 ,无 法 完整 跟踪 ; 二 是 有 一 批 “ 专 业 ” 的 刷 单 账 号 ， 
通过 聚 划算 的 直接 购买 链接 (buy_item_action) 采 用 机 器 下 单 , 批 量 作 弊 。 于 是 数据 专家 对 
这 些 用 户 产生 了 兴趣 。 

2. 交易 行为 聚 类 

聚 类 方法 有 很 多 种 ,数据 科学 家 采用 了 网 络 科 学 中 的 社团 发 现 算法 ,并 综合 考虑 了 商品 
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图 6-11 成 交 前 决策 时 间 分 布 
和 时 间 的 因素 ,对 用 户 进行 聚 类 。 网 络 生成 过 程 如 图 6-12 所 示 。 
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图 6-12 用户 聚 类 网 络 生成 过 程 





首先 数据 团队 拿 到 的 是 用 户 的 交易 行为 , 即 (用 户 -商品 ) 的 二 分 图 。 通 过 规则 投影 , 形 
成 (用 户 - 用 户 ) 的 网 络 。 用 户 连 边 的 规则 是 : 如 果 两 个 用 户 ,在 相同 的 时 间 ( 按 小 时 划分 ? 购 
买 了 相同 的 商品 , 则 建立 一 条 边 ,如 果 重 合 次 数 不 止 一 次 , 则 边 权 表示 行为 重合 的 次 数 。 于 
是 抽取 了 某 天 无 浏览 记录 的 56 467 个 用 户 ,并 建立 了 他 们 的 行为 相似 网 络 , 如 图 6-13 所 示 。 

大 部 分 社团 是 小 的 ,只 有 少数 是 大 社团 。 成员 在 100 以 上 的 社团 仅 有 15 个 ,成 员 有 
10 一 100 个 人 的 社团 有 1192 个 ,那么 依然 有 8658 个 社团 是 极 小 的 社团 。 数 据 专家 对 大 社 
团 进行 一 些 分 析 , 首 先是 最 大 的 社团 ,这 个 社团 有 689 个 用 户 , 却 只 有 10 个 商品 (其 中 两 个 
只 出 现 一 次 交易 ,在 图 中 被 省 略 )。 这 个 群体 基本 可 以 定性 为 青春 女性 。 
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图 6-13 用 户 相 似 行为 网 络 


对 剩 下 的 几 个 TOP10 社团 进行 商品 查询 ,得 到 的 情况 列 在 表 6-1 中 。 
表 6-1 用 户 社 团 TOP10 






































社团 大 小 购买 类 别 简单 定性 

689 耳 钉 、 护 理 青春 少女 

642 女 鞋 . 女 包 年 轻 女 性 

624 女装 .香水 年 轻 女性 

563 耳 钉 、 女 装 年 轻 女 性 

514 睡衣 、T 恤 家 庭 女性 

481 睡衣 、 戒 烟 、 养 胃 中 年 女性 

422 剃 须 刀 \ 戒 烟 产 品 家 庭 男性 或 主妇 
199 面部 护理 套装 同 店 消费 

175 女 鞋 . 女 裤 女性 

150 面膜 ( 御 泥 坊 ) 同 店 消费 


除了 根据 兴趣 划分 外 ,我 们 还 可 以 发 现 , 在 100 大 小 的 社团 中 ,出 现 了 几乎 所 有 用 户 的 
交易 都 在 同一 个 商店 里 面 。 不 得 不 使 我 们 猜想 .有 没有 可 能 是 商家 做 的 鬼 ? 雇用 一 批 水 军 
来 刷 销量 。 它 提供 给 我 们 一 个 线索 ,就 是 可 以 通过 商品 和 时 间 的 维度 来 辅助 虚假 交易 的 监 
测 和 预警 。 同 时 ,上 面 的 社团 分 析 ,让 我 们 猜测 虚假 交易 的 用 户 往往 容易 形成 具有 较 强 的 关 
系 网 络 ( 比 如 熟人 、 小 号 ), 这 在 日 后 的 数据 产品 中 ,被 作为 一 个 重要 的 参考 来 源 。 

3. 聚 划算 秒杀 反 作 弊 

聚 划算 的 电 商 云 上 已 经 储存 了 丰富 的 业务 数据 ,系统 数据 也 因为 集团 的 DT 技术 布局 
而 唾 手 可 得 ,多 种 数据 的 交叉 复 用 ,往往 能 带 来 很 多 意 想不到 的 价值 。 通 过 尝试 解决 聚 划算 
秒杀 器 作 汐 问题 的 契机 ,数据 团队 利用 交易 网 络 的 聚 类 分 析 , 尝 试 了 多 种 数据 跨 平 台 的 交叉 
复 用 ,取得 了 不 错 的 效果 。 

图 6-14 是 交易 棱镜 系统 的 整体 架构 .云端 (Yuntil 十 ODPS) 和 线 上 应 用 通过 DataX 和 
TTCTimeTunnel) 的 交互 ,实现 了 业务 数据 ,系统 数据 交叉 复 用 的 闭环 。 云 梯 负责 存储 和 离 
线 计算 ,DataX 负责 跨 介 质 同 步 数 据 ,TT 负责 收集 线 上 日 志 到 云端 。 


口 交易 订单 曝 侣 
口 商品 信息 
口 同人 关系 网 络 








| 口 系 统 昌 志 


图 6-14 聚 划算 交易 棱镜 


ODPS 是 数据 的 中 心 ,通过 整合 来 自 云 梯 1.ODPS 和 线 上 返回 的 日 志 , 计 算出 新 的 黑 名 
单数 据 ,再 用 DataX 回流 到 MySQL 数据 库 中 ,由 线 上 应 用 进行 调用 。DataX 能 够 在 不 同 介 
质 进行 数据 搬运 ,包括 云梯 1 到 ODPS、ODPS 到 MySQL 以 及 TAIR。 

所 谓 秒杀 活动 ,原本 是 重 在 参与 .生死 由 天 的 玩法 。 但 是 我 们 从 数据 分 析 一 下 ,发现 聚 
划算 竟然 存在 这 么 多 零 秒 订单 ,如 图 6-15 所 示 。 


历史 数据 


开 团 后 n 秒 下 单 量 (2014 年 1~9 月 ) 


图 6-15 历史 数据 


由 于 历史 原因 , 聚 划算 PC 交易 在 单 击 “ 马 上 抢 ” 按 钮 后 .会 跳 转 到 天 猫 或 者 淘宝 集 市 的 
宝贝 详情 页 进行 SKU 选择 和 下 单 。 普 通用 户 手 动 的 速度 ,几乎 不 可 能 在 1000ms( 王 1s) 以 
内 完成 从 参 团 到 下 单 至 订单 生成 的 全 过 程 。 而 这 些 0 秒 订单 ,只 有 一 个 解释 ,就 是 利用 了 秒 
杀 软 件 。 最 直截了当 的 方法 ,就 是 监控 从 聚 划算 参 团 到 天 猫 或 淘宝 详情 页 的 订单 生成 时 间 ， 
如 果 是 1000ms 以 内 ,就 把 这 个 订单 kill 掉 。 

如 图 6-16 和 图 6-17 所 示 分 别 为 数据 架构 图 和 应 用 场景 图 。 

我 们 通过 引入 秒杀 恶意 名 单 和 同人 关系 网 络 ,构造 了 一 个 专属 聚 划算 交易 的 名 单 库 , 有 
效 地 维护 了 聚 划算 的 交易 环境 ,让 更 多 普通 用 户 有 机 会 抢 到 心仪 的 商品 。 
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31902 35.7% 


74661 83.5% 


(与 秒 美 用 户 数 有 配合 ) 





用 户 信 息 中 心 民生 相册 。 所 有 淘宝 买 家 

| 同人 关系 值 和 买 家 评价 数 对 作 浆 用 户 的 扩展 行 簿 昔 : 

原 峰 筷 秒杀 夫 数 后 ， 作 刊 用户 可 能 使 用 其 小 二 〈 风 人 关系 ) 得 者 男 注 册 新 岐 号 《评价 数 为 0) 进行 秒 系 。 
图 6-16 数据 架构 图 


交易 棱镜 : 应 用 场景 





' 

| 口 秒杀 记录 数 > 1 
] 口 同人 关系 值 >85 
| 口 买 家 评价 数 <4 
| 





图 6-17 应 用 场景 图 


秒杀 拦截 系统 第 一 天 上 线 ,拦截 量 就 达到 顶峰 (大 多 数秒 杀 器 毫 无 准备 ) ,如 图 6-18 所 
示 。 随 着 作 刺 用 户 的 察觉 ,每 天 的 拦截 量 伴随 着 零 秒 订单 数量 逐步 减少 ,现在 每 日 的 零 秒 订 
单 维持 在 1000 个 以 下 。 


交易 棱镜 系统 效果 数据 





图 6-18 效果 报告 图 
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6.2.3 “ 聚 划算 ”的 数据 价值 


1. 业务 价值 

通过 大 数据 算法 设计 与 优化 ,将 聚 划算 订单 移动 端 转化 率 提升 了 20%% 一 30%% ,PC 端 转 
化 率 提升 了 10% 以 上 , 零 秒 订单 减少 了 65% 以 上 , 极 大 地 提升 了 商品 销售 量 ,大幅 降低 了 作 
整 比例 。 

2. 产业 价值 

为 移动 电 商 \ 在 线 团购 营销 ,提出 了 数据 营销 、 数 据 招商 数据 反 欺 诈 的 创新 模式 ,为 
DT 时 代 的 产业 形成 行业 应 用 标杆 ,具有 良好 的 商业 复制 价值 。 

3. 社会 价值 


保障 消费 者 公平 .便捷 、 舒 适 地 享用 电 商 团购 服务 ,保护 了 优质 商品 和 信誉 良好 商家 的 
商业 利益 ,培育 更 健康 的 电 商 市 场 秩 序 ,DT 社会 化 应 用 功 不 可 没 。 


“ 让 数据 告诉 你 “ 谁 可 信 ” 
第 7 章 


© © ® 


使 -ee-e 


虚拟 的 网 络 世 界 存在 着 秩序 混乱 和 诚信 缺失 的 危机 ,大 数据 技术 的 出 现 采集 和 存储 了 
每 个 人 、 每 个 时 点 、 每 个 位 置 、 每 个 事件 等 信息 ,从 而 使 虚拟 网 络 的 每 个 节点 上 的 描述 不 再 是 
单一 独立 的 。 三 人 成 虎 的 故事 不 会 再 演 , 因 为 我 们 可 以 获得 全 城 人 的 信息 ,甚至 老虎 自己 都 
会 告诉 你 “他 没 进 城 ”。 

“ 谁 是 可 信 的 ?” 这 个 问题 ,大 数据 可 以 给 出 回答 


7.1 “区 块 "成 “ 链 ” 


1982 年 ,一 位 美国 计算 机 科学 家 莱 斯 利 ， 兰 伯 特 (Leslie Lamport) 给 大 家 讲 了 一 个 
故事 。 

拜占庭 位 于 如 今 的 土耳其 的 伊斯坦布尔 ,是 东风 马 帝 国 的 首都 。 由 于 当时 拜占庭 罗马 帝 
国 国土 辽阔 ,为 了 防御 ,每 个 军队 都 分 隔 很 远 ,将 军 与 将 军 之 间 只 能 靠 信 差 传 消息 。 在 战争 的 
时 候 , 拜 占 庭 军队 内 所 有 将 军 和 副官 必须 达成 共识 ,决定 是 否 有 赢 的 机 会 才 去 攻打 敌人 的 阵 
营 。 但 是 ,在 军队 内 有 可 能 存 有 叛徒 和 敌 军 的 间谍 ,左右 将 军 们 的 决定 又 扰乱 整体 军队 的 秩 
序 。 在 进行 共识 时 ,结果 并 不 代表 大 多 数 人 的 意见 。 这 时 ,在 已 知 有 成 员 谋反 的 情况 下 ,其余 
忠诚 的 将 军 在 不 受 上 叛徒 的 影响 下 如 何 达 成 一 致 的 协议 ,这 就 是 著名 的 “拜占庭 将 军 问题 ". 

在 原始 的 战争 中 仅 能 采用 "出行 靠 走 ,通信 靠 吼 ? 的 口头 或 信件 传递 ,所 以 拜占庭 将 军 问题 
的 含义 是 : 在 存在 消息 丢失 的 不 可 靠 信道 上 试图 通过 消息 传递 的 方式 达到 一 致 性 是 不 可 能 的 。 

随 着 统计 、 计 算 等 技术 的 出 现 和 发 展 ,困扰 拜占庭 将 军 的 问题 已 不 再 是 问题 。2008 年 
11 月 1 日 ,比特 币 之 父 中 本 聪 发 表 了 一 篇 题 为 Bitcoin P2P e-cash paper”( 比 特 币 : 一 种 点 
对 点 的 电子 现金 系统 ) 的 文章 ,阐述 了 基于 P2P 网 络 技术 .加 密 技 术 、 时 间 戳 技术 .区 块 链 技 
术 等 的 电子 现金 系统 的 构架 理念 ,这 标志 着 比特 币 的 诞生 。 两 个 月 后 理论 步 入 实践 ,2009 
年 1 月 3 日 第 一 个 序号 为 0 的 比特 币 创 世 区 块 诞生 。 几 天 后 2009 年 1 月 9 日 出 现 序号 为 1 
的 区 块 并 与 序号 为 0 的 创 世 区 块 相连 接 形成 了 链 ,标志 着 区 块 链 的 诞生 。 

区 块 链 是 一 个 分 布 式 账 本 ,一 种 通过 去 中 心 化 .去 信任 的 方式 集体 维护 一 个 可 靠 数据 库 
的 技术 方案 。 在 区 块 链 的 思想 中 ,通过 “工作 量 证 明 链 ”就 可 以 获得 解决 “拜占庭 将 军 问题 ” 
的 方案 。 


























@ 维基 百科 . 


7.1.1 区 块 的 形成 


第 7 章 让 数据 告诉 你 “ 谁 可 信 ” 


从 数据 的 角度 来 看 ,区 块 链 是 一 种 几乎 不 可 能 被 更 改 的 分 布 式 数据 库 。 这 里 的 “分 布 
式 " 不 仅 体现 为 数据 的 分 布 式 存储 ,也 体现 为 数据 的 分 布 式 记录 ( 即 由 系统 参与 者 共同 维 
护 )。 从 技术 的 角度 来 看 ,区 块 链 并 不 是 一 种 单一 的 技术 ,而 是 多 种 技术 整合 的 结果 。 这 些 
技术 以 新 的 结构 组 合 在 一 起 ,形成 了 一 种 新 的 数据 记录 、 存 储 和 表达 的 方式 ,如 图 7-1 所 示 。 


传统 支付 系统 






第 三 方 机 构 


图 7-1 区 块 链 


1. 区 块 





区 块 链 支 付 系统 





在 区 块 链 技 术 中 ,数据 以 电子 记录 的 形式 被 永久 储存 下 来 ,存放 这 些 电子 记录 的 文件 就 
称 为 “区 块 (Block)”。 区 块 是 按时 间 顺 序 一 个 一 个 先后 生成 的 ,每 一 个 区 块 记录 下 它 在 被 创 
建 期 间 发 生 的 所 有 价值 交换 活动 ,所 有 区 块 汇总 起 来 形成 一 个 记录 合集 ,这 个 合集 就 是 区 块 
链 。 其 基本 思想 可 以 这 样 理解 : 通过 建立 一 个 互联 网 上 的 公共 账本 ,由 网 络 中 所 有 参与 的 
用 户 共 同 在 账本 上 记 账 与 核 账 ,每 个 人 (计算 机 ?都 有 个 一 样 的 账本 ,所 有 的 数据 都 是 公开 透 
明 的 ,并 不 需要 一 个 中 心服 务 器 作为 信任 中 介 , 在 技术 层面 就 能 保证 信息 的 真实 性 、 不 可 算 


改 性 ,也 就 是 可 信人 性 。 

某 个 区 块 好 比 账本 中 的 一 页 ,对 于 普通 账本 ,信息 
被 写 在 了 纸 上 ,而 对 于 区 块 链 , 数 据 能 够 通过 保存 于 区 
块 中 被 永久 地 记录 在 数字 货币 网 络 上 。 区 块 上 的 数 
据 ,一 旦 书写 就 很 难 被 修改 或 移 除 。 区 块 的 结构 包括 
区 块 大 小 、 区 块头 、 交 易 计 数 器 和 交易 ,如 图 7-2 所 示 。 

区 块 大 小 ,顾名思义 ,所 表示 的 是 其 所 在 区 块 的 
大 小 ,通常 为 4B。 

区 块头 ,包含 除了 交易 相关 信息 以 外 的 所 有 信 
息 。 包 括 引 用 父 区 块 哈 希 值 ( 复 杂 的 随机 值 ) 的 数 
据 , 用 于 将 该 区 块 与 区 块 链 中 前 一 区 块 相 连接 ; 记录 
该 区 块 产 生 的 近似 时 间 的 时 间 戳 ; 用 来 有 效 地 总 结 区 
块 中 所 有 交易 的 Merkle 树 根 ; 用 于 跟踪 软件 或 协议 


第 001 块 
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更 新 的 版 本 号 ; 与 区 块 工作 量 证 明 算法 相关 的 难度 目标 和 计算 器 。 

交易 计数 器 记录 了 该 区 块 中 包含 的 交易 的 数量 。 

交易 记录 了 该 区 块 中 交易 的 信息 。 

2. 区 块 “ 链 ” 

区 块 链 以 区 块 为 单位 组 织 数据 ,如 图 7-3 所 示 。 全 网 所 有 的 交易 记录 都 以 交易 单 的 形 
式 存储 在 全 网 唯一 的 区 块 链 中 。 


第 001 块 第 002 块 第 003 块 


上 一 区 块 的 上 一 区 块 的 
哈 希 散 列 哈 希 散 列 
:用 村 1 


交易 3415 交易 3415 
交易 3416 交易 3416 交易 3416 











图 7-3 区 块 “ 链 ” 


7.1.2 区 块 链 的 特征 

区 块 链 的 特点 及 发 展 来 源 于 它 所 产生 的 土壤 一 一 互联 网 技术 的 发 展 和 云 计 算 、 大 数据 
的 兴起 。 

1. 去 中 心 化 

区 块 链 系统 是 由 大 量 节 点 共同 组 成 的 一 个 点 对 点 网 络 , 不 存在 中 心 化 的 硬件 或 管理 机 
构 , 任 一 节点 的 权利 和 义务 都 是 均等 的 ,系统 中 的 数据 块 由 整个 系统 中 所 有 具有 维护 功能 的 
节点 共同 维护 , 且 任 一 节点 的 损坏 或 者 失去 都 不 会 影响 整个 系统 的 运作 。 

2. 共识 信任 机 制 

区 块 链 技术 从 根本 上 改变 了 中 心 化 的 信用 创造 方式 ,运用 一 套 基 于 共识 的 数学 算法 ,在 机 
器 之 间 建 立 “ 信 任 ” 网 络 ,从 而 通过 技术 背书 而 非 中 心 化 信用 机 构 来 进行 信用 创造 。 借 助 区 块 
链 的 算法 证 明 机 制 , 参 与 整个 系统 中 的 每 个 节点 之 间 进 行 数据 交换 无 须 建立 信任 过 程 。 在 系统 
指定 的 规则 范围 和 时 间 范 围 内 ,节点 之 间 不 能 也 无 法 欺骗 其 他 节点 , 即 少量 节点 无 法 完成 造假 。 

3. 信息 不 可 算 改 

区 块 链 系统 将 通过 分 布 式 数 据 库 的 形式 ,让 每 个 参与 节点 都 能 获得 一 份 完整 数据 库 的 
备份 。 一 旦 信息 经 过 验证 添加 到 区 块 链 上 ,就 会 永久 地 存储 起 来 .除非 能 够 同时 控制 整个 系 
统 中 超过 51% 的 节点 ,否则 单个 节点 上 对 数据 库 的 修改 是 无 效 的 ,因此 区 块 链 的 数据 可 靠 
性 很 高 , 且 参 与 系统 中 的 节点 越 多 ,计算 能 力 越 强 ,该 系统 中 的 数据 安全 性 越 高 。 

4. 开放 性 

区 块 链 系统 是 开放 的 ,除了 交易 各 方 的 私有 信息 被 加 密 外 ,区 块 链 的 数据 对 所 有 人 公开 ， 


























任何 人 都 可 以 通过 公开 的 接口 查询 区 块 链 数 据 和 开发 相关 应 用 ,因此 整个 系统 信息 高 度 透 明 。 

5. 匿名 性 

由 于 节点 间 无 须 互 相信 任 , 因 此 节点 间 无 须 公 开 身 份 ,系统 中 每 个 参与 的 节点 都 是 匿名 
的 。 参 与 交易 的 双方 通过 地 址 传递 信息 ,即便 获取 了 全 部 的 区 块 信息 也 无 法 知道 参与 交易 
的 双方 到 底 是 谁 ,只 有 掌握 了 私 钥 的 人 才能 开启 自己 的 “钱包 ”。 此 外 ,在 诸如 比特 币 的 交易 
中 ,提倡 为 每 一 笔 交 易 申 请 不 同 的 地 址 ,从 而 进一步 保障 了 交易 方 的 隐私 。 

6， 跨 平台 

区 块 链 网 络 上 的 节点 是 基于 共同 的 算法 和 数据 结构 独立 运行 的 ,主要 消耗 的 是 计算 资 
源 ,与 平台 无 关 , 可 以 在 任意 平台 部 署 计算 节点 。 

区 块 链 是 一 种 伴随 着 比特 币 出 现 的 思想 ,比特 币 只 是 区 块 链 的 第 一 个 应 用 。 有 了 区 块 
链 之 后 , 当 一 个 用 户 想 要 进行 历史 交易 的 验证 时 ,可 以 通过 一 系列 基于 密码 学 与 数据 结构 学 
的 运算 追踪 交易 所 属 的 区 块 ,从 而 完成 验证 。 


7.2 “芝麻 信用 ”让 信用 等 于 财富 


区 块 链 体 现 的 是 群体 智慧, 是 互 联网 思维 的 技术 实现 。 大 数据 则 提供 了 群体 智慧 的 来 
源 , 两 者 的 结合 可 以 实现 一 种 群体 评价 体系 。 简 单 地 说 ,大 数据 时 代 要 证 明 一 个 人 的 诚信 或 
一 个 事实 的 真 伪 ,需要 所 有 人 共同 的 认定 。 

当 被 问 到 “如 何 证 明 我 爸 是 我 爸 ” 的 时 候 , 不 是 由 公证 处 、 警 察 局 、 人 事 户 籍 单位 来 开具 
证 明文 件 。 而 是 通过 我 的 邻居 、 家 里 的 七 大 关 八 大 姨 我 爸 单 位 的 同事 .小 学 班主 任 是 否 看 
到 我 爸 去 开 家 长 会 等 共同 来 论证 的 。 


7.2.1 什么 是 信用 


大 数据 在 金融 领域 中 最 重要 的 应 用 或 者 说 是 颠覆 性 的 作用 ,就 是 可 以 构建 新 的 去 中 心 
的 信用 评价 体系 。 

什么 是 信用 ? 信用 是 经 济 活动 的 金融 借贷 , 随 着 受信 人 的 信用 值 从 低 到 高 发 生变 化 , 信 
用 值 很 低 的 人 交易 时 必须 "一 手 交 钱 .一 手 交 货 ”, 信 用 值 高 的 人 则 可 以 享受 “ 先 交 货 ,再 付 
款 ” 等 高 可 信服 务 , 如 图 7-4 所 示 。 信 用 极 大 地 提升 了 消费 环境 的 便利 性 ,作为 一 种 基础 ,有 
助 于 促进 诚信 社会 的 建立 。 





图 7-4 ”信用 高 低 的 区 别 


欧美 和 日 本 等 国 征 信 行业 发 展 历程 表明 经 济 发 展 与 信用 体系 相辅相成 的 密切 关系 , 伴 
随 我 国 经 济 快速 发 展 , 征 信 行业 将 进入 快车 道 。 按 照 宏 源 证 券 分 析 师 的 预测 ,中 国 个 人 征 信 
市 场 空 间 为 1030 亿 元 ,而 目前 个 人 征 信 和 企业 征 信 的 总 规模 才 20 亿 元 。 


英美 征 信行 业经 历 了 一 百 多 年 的 发 展 ,已 形成 稳定 的 市 场 格 局 和 完备 的 法 律 体系 ,个 人 
征 信 以 Equifax、Transunion、Experian 三 大 征 信 公司 为 主体 ,企业 征 信 以 邓 白 氏 公 司 为 主 ， 
如 图 7-5 所 示 。 
自愿 提供 付费 使 用 
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图 7-5 英美 征 信 产业 


(1) 数据 提供 方 : 个 人 、 机 构 自 愿 提供 基础 数据 ,例如 金融 机 构 、 电 信和 运营 商 \ 法 院 、 公 
共事 业 单 位 等 机 构 , 另 外 ,一 千 多 个 地 方 信用 局 (三 大 信用 局 的 外 包机 构 ) 也 在 不 断 收集 信用 
数据 。 

(2) 信用 评估 方 : 以 “三 大 ”为 首 的 信用 局 ,加工 数据 ( 付 账 记录 、 未 偿还 债务 、 开 立 账户 
时 长 ,贷款 、 使 用 过 的 信贷 记录 ) ,依托 FICO 模型 来 赋予 个 人 或 企业 “信用 分 数 ”。 

(3) 信用 服务 使 用 方 : 在 这 一 环节 信用 产生 价值 ,不 同 组 织 有 偿 使 用 信用 服务 ,例如 在 
金融 服务 中 , 开 新 账户 .银行 卡 申 请 、 房 车 贷款 、 保 险 等 领域 广泛 应 用 ,其 他 工作 生活 领域 也 
是 以 信用 为 基础 的 ,包括 公共 事业 ,电话 安装 .就 业 升 职 .房车 租赁 .工商 注册 。 

与 美国 在 1860 年 成 立 第 一 家 信用 局 相 比 ,中 国 在 2004 年 才 迟 迟 启动 个 人 征 信 系统 建 
设 ,2006 年 11 月 人 民 银 行 征 信 中 心 在 上 海 正 式 注册 为 事业 法 人 单位 ,截至 2014 年 年 底 , 央 
行 个 人 征 信 系 统 共 收录 8 亿 多 用 户 ( 其 中 有 信用 记录 的 约 为 三 亿 )。 

从 国外 征 信 业 历 史 来 看 ,我 国 征 信 业 起 步 晚 。2015 年 1 月 5 日 ,中 国人 民 银 行 在 (关于 
做 好 个 人 征 信 业务 准备 工作 的 通知 ) 中 ,要 求 芝 麻 信 用 管理 有 限 公司 (蚂蚁 金 服 旗下 ) 等 8 家 
机 构 做 好 个 人 征 信 业务 的 准备 工作 ,这 些 公司 在 日 常 经 营 过 程 中 积累 下 来 的 自 有 商业 性 数 
据 ,可 通过 购买 .交换 、 自 采 以 及 免费 获取 等 方式 获得 信用 信息 和 数据 ,前 提 是 收集 和 分 析 这 
些 数 据 需 要 获得 个 人 授权 ,遵守 法 律 规 定 .民营 征 信 企业 的 加 入 让 征 信 业 真正 焕发 了 市 场 化 
和 大 数据 的 活力 。 


7.2.2 从 “信用 ”到 “财富 ” 


马云 说 :“ 阿 里 巴巴 真是 希望 让 信用 等 于 财富 。 几 年 前 ,我 们 呼吁 银行 全 力 支持 中 小 企 
业 , 但 是 银行 有 自己 的 难处 ,它们 的 模式 很 难 让 它们 真正 地 去 服务 好 网 商 、 服 务 好 中 小 企业 ， 
所 以 阿里 用 互联 网 的 思想 和 互联 网 的 技术 去 支撑 整个 社会 未 来 金融 体系 的 重建 。 在 阿里 的 
金融 体系 里 面 ,我 们 不 需要 抵押 ,我 们 需要 信用 ; 我 们 不 需要 关系 ,我 们 需要 信用 ; 我 们 不 
需要 你 挣 多少 钱 ,我 们 需要 你 踏 踏实 实地 为 客户 服务 。” 

芝麻 信用 正 通 过 信用 数据 平台 以 及 各 种 场景 中 的 “信用 支付 ”服务 产品 构建 “信用 人 金融 ” 
体系 ,通过 互联 网 金融 帮助 普通 消费 者 .中 小 企业 更 便捷 地 获得 更 强 的 经 济 活 力 与 更 佳 的 体 
验 , 重 构 涵盖 个 人 信用 和 企业 信用 的 生态 系统 有 着 重要 意义 .具有 互联 网 基因 的 企业 在 这 方 


面 优势 巨大 。 
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如 图 7-6 所 示 ,“ 芝 麻 信 用 ”致力 于 为 13 亿 中 国人 、6000 万 企业 法 人 建立 信用 档案 ,整合 
网 上 银行 . 电 商 、 社 交 、 招 聘 、 婚 介 、 公 积 金 社保 、 交 通 运输 ,搜索 引擎 ,最 终 聚 合 形成 个 人 身份 
认证 、 工 作 及 教育 背景 认证 等 维度 的 信息 。 传 统 金融 征 信 只 是 瞄准 信贷 业务 ,而 “芝麻 信用 ” 
对 接 神 州 租车 采用 个 人 信用 背书 ,让 高 信用 消费 者 (芝麻 分 高 于 650)“ 无 抵押 ”快捷 租车 ,对 
接 “ 去 啊 ” 在 旅游 中 帮助 讲 信 用 消费 者 (芝麻 分 高 于 600)“ 零 押金 ”享受 “信用 住 ”。 





(@) 








大 数据 云 计算 场景 /结果 
亿 实名 用 户 言 
i 自动 用 户 评估 系统 账户 区 配 度 高 
涵盖 上 百 种 场景 数据 用 户 画像 信息 档案 RPR 并 Co 
购物 、 支 付 、 投 资 、 生 活 、 公 益 等 
关系 识别 与 评价 i 
Sp PO 评分 区 分 能 力 刀子 
5000 个 国家 图 书馆 信息 量 
图 7-6 蚂蚁 金 服 的 征 信 基 础 
1. 信用 评分 


2015 年 1 月 28 日 ,蚂蚁 金 服 旗下 的 个 人 征 信 机 构 芝 麻 信 用 首 推 * 芝 麻 信用 分 ”( 简 称 


“芝麻 分 ”) ,这 是 中 国有 史 以 来 首 个 个 人 信用 评分 ， 
可 以 直观 呈现 用 户 的 信用 水 平 , 如 图 7-7 所 示 。 

在 “支付 宝 钱包 ”中 打开 “财富 " 栏 便 能 看 到 芝麻 
信用 分 的 选项 ,芝麻 信用 采用 了 国际 上 通行 的 信用 
分 来 直观 地 表现 信用 水 平 ,如 图 7-8 所 示 。 

芝麻 信用 分 最 低 350 分 ,最 高 950 分 ,分 数 越 高 
代表 信用 程度 越 好 ,违约 可 能 性 越 低 。 这 与 美国 的 
FICO 分 评分 (300 一 850 分 之 间 ) 非 常 相近 。 

如 何 计算 ? 芝麻 信用 分 的 计算 基础 主要 包含 用 
户 信 用 历史 ,行为 偏好 、 履 约 能 力 、 身 份 特质 、 人 脉 关 
系 5 个 维度 ,如 图 7-9 所 示 。 

(1) 信用 历史 : 过 往 信用 账户 还 款 记 录 及 信用 
账户 历史 。 

(2) 行为 偏好 : 在 购物 缴费. 转账 .理财 等 活 
动 中 的 偏好 及 稳定 性 。 

(3) 履约 能 力 : 享用 各 类 信用 服务 并 确保 及 时 
履约 。 

(4) 身份 特质 : 在 使 用 相关 服务 过 程 中 留 下 的 
足够 丰富 和 可 靠 的 个 人 基本 信息 。 





路 琴 一 下 





全 信用 哺 猜 必 信用 生活 


图 7-7 支付 宝 钱包 中 的 芝麻 信用 分 
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芝麻 信用 评分 体系 中 等 优秀 
550~600 650~700 
350~550 600~650 700~950 
较 差 良好 极 好 


图 7-8 芝麻 信用 评分 体系 





人 脉 关系 信用 历史 


例 信用 猜 猜 c 信用 生活 
图 7-9 芝麻 信用 分 评估 维度 


(5) 人 脉 关系 : 好 友 的 身份 特征 以 及 跟 好 友 互 动 程度 。 
数据 来 源 上 ,除了 会 接 入 阿里 巴巴 集团 的 电 商 数据 和 蚂蚁 金融 服务 


集团 的 互联 网 金融 


数据 外 ,芝麻 信用 还 与 公安 部 (身份 证 ) .教育 部 (学 历 学 籍 ) 、 工 商 总 局 (企业 注册 )、 质 检 总 局 


(组 织 机 构 代 码 ) 等 众多 公共 机 构 以 及 合作 伙伴 建立 了 数据 合作 关系 , 同 
道人 允许 用 户主 动 提交 各 类 信用 相关 信息 ,如 图 7-10 和 图 7-11 所 示 。 


时 也 将 开辟 各 类 煤 


芝麻 信用 数据 涵盖 了 信用 卡 还 款 、 网 购 转账 ,理财 ,水 电 煤 缴费 .租房 信息 、 住 址 搬迁 历 





始 影响 人 们 的 生活 服务 模式 。 
芝麻 信用 认为 ,信用 是 整个 社会 的 基础 设施 ,芝麻 信用 会 被 应 用 到 4 





E 活 的 方方面面 ,而 





不 仅 局 限于 金融 领域 ,如 图 7-12 所 示 。 出 国 签证 时 使 馆 根据 信用 分 快速 签 批 ,无须 再 准备 


资产 证 明 、 收 入 证 明 ; 旅游 旺季 根据 信用 分 , 住 酒店 前 无 须 预付 “担保 留 


房 ”, 住 酒店 免 押 金 


是 天 有 过 作 疯 交 
易 行为 
年 齿 信用 账户 历史 时 长 人 球 园 信用 度 。 。 是 否 有 过 做 省 行 。 ”是否 有 信用 卡 傅 
性 别 方式 消费 场景 信用 卡 张 数 活跃 度 
职业 是 否 实名 认证 消费 层次 银行 卡 类 型 粉丝 数 是 否 有 过 公检法 。 是 否 是 外 部 商户 


家 庭 状 况 注册 时 长 是 否 乐 于 分 享 笔 均 额 度 影响 力 不 良 记录 的 恶意 用 户 


基本 信息 注册 信息 兴趣 偏好 。 。 支付 和 资金 。 ”人 肪 关系 黑 名 单 信息 外 部 应 用 
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合作 公共 机 构 用 户 自主 
及 合作 伙伴 信息 提交 集 道 
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图 7-12 芝麻 信用 生活 服务 
入 驻 ; 租车 时 根据 信用 分 取消 “押金 ”及 “ 预 授 权 ” 环 节 ; 未 来 , 讲 信用 的 人 会 享受 到 更 了 





FE 富 


的 省 时 、 省 心 .省 钱 的 社会 服务 ,例如 招聘 时 是 否 录用 、 贷 款 是 否 发 放 、 奖 学 金 是 否 给 予 约会 


交友 是 否 继续 等 都 可 以 先 查 一 查 对 方 的 芝麻 分 ,如 图 7-13 所 示 。 





图 7-13 信用 就 是 财富 


目前 ,芝麻 信用 已 经 跟 租车 .租房 婚恋、 签证 等 多 个 领域 的 合作 伙伴 进行 合作 ,对 外 提 
供出 行 、 住 宿 .金融 、 购 物 、 社 交 、 民 生 等 多 种 信用 相关 的 便捷 服务 。 这 意味 着 当 你 的 芝麻 分 
达到 一 定数 值 , 租 车 、 住 酒店 时 可 以 不 用 再 交 押 金 ,网 购 时 可 以 先 试 后 买 ,在 各 国 大 使 馆 办 理 
签证 时 不 用 再 闪 转 腾挪 办 存款 证 明 ,贷款 时 可 以 更 快 得 到 批复 、 拿 到 比 别人 低 的 利率 ,其 至 
相亲 时 也 可 以 最 大 程度 避免 婚 骗 。 但 如 果 借 钱 不 还 、 恶 意 购物 ,这 些 行为 也 可 能 引发 找 不 到 
工作 、 租 不 到 房 .申请 不 到 贷款 、 找 不 到 女 朋 友 等 连锁 反应 。 

2. 信用 “财富 "的 困惑 

(1) 会 不 会 一 失足 成 千古 恨 ? 

芝麻 信用 的 答案 是 : 正常 情况 下 ,一 个 人 的 信用 信息 是 相对 稳定 的 。 当 然 , 如 果 关 键 信 
用 发 生 重大 变化 ,这 种 变化 也 会 很 快 反映 到 芝麻 分 上 。 不 过 ,信用 的 提升 是 一 个 循序 渐进 的 
过 程 ,无 法 通过 单个 行为 或 事件 迅速 提升 ,需要 长 期 积累 。 

芝麻 分 是 芝麻 信用 根据 当前 了 解 的 信息 ,运用 大 数据 方法 综合 评估 而 得 ,个 人 用 户 通 过 
让 芝麻 信用 了 解 其 更 多 信息 将 有 助 于 提升 芝麻 分 。 同 时 在 日 常生 活 或 经 济 活动 中 尽 可 能 使 
用 信用 服务 及 时 履行 约定 也 有 助 于 芝麻 分 的 提升 。 

(2) 我 的 信用 信息 会 不 会 人 尽 皆 知 ? 

芝麻 信用 负责 人 表示 ,不 管 是 机 构 还 是 他 人 ,要 查看 你 的 芝麻 分 ,都 必须 获得 你 本 人 的 
授权 。 此 外 ,芝麻 分 是 通过 对 海量 信用 信息 的 综合 评估 和 处 理 , 得 出 一 个 信用 分 数 ,去 直观 
地 呈现 信用 水 平 。 这 种 呈现 形式 ,可 以 更 好 地 保护 个 人 的 具体 信用 信息 和 隐私 。 

截至 2013 年 年 底 , 央 行 银行 个 人 征 信 系统 中 收录 有 信贷 记录 的 自然 人 约 3.2 亿 , 历 经 
16 年 从 无 到 有 、 细 至 全 面 地 构筑 了 中 国企 业 、 个 人 的 征 信 数 据 库 , 并 与 所 有 商业 银行 、 农 信 
社 联网 运行 ,是 所 有 工商 业 正常 运营 的 信任 基础 。 

芝麻 信用 等 民营 征 信 机 构 所 覆盖 的 网 民 草 根 群 体 , 是 对 传统 征 信 机 构 有 益 的 市 场 数据 
补充 ,如 未 有 过 借贷 、 未 申请 过 信用 卡 的 人 ,学 生 群 体 、 蓝 领 工人 .个体户 、 自 由 职业 者 等 。 他 
们 以 这 些 人 群 的 网 络 行为 轨迹 数据 为 基础 ,利用 大 数据 技术 和 数据 分 析 模 型 评估 出 其 信用 
等 级 ,与 现 有 征 信 系统 形 成 了 很 好 的 互补 效应 。 
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7.2.3 信用 商 圈 


芝麻 信用 可 以 应 用 在 哪些 领域 ? 

芝麻 信用 不 仅 在 金融 借贷 关系 中 有 很 强 的 信用 风险 预测 能 力 , 而 且 在 生活 服务 中 也 具 
备 很 好 的 区 分 能 力 。 因 此 未 来 在 金融 领域 ,需要 押金 、 预 授权 的 租房 .租车 ` 酒 店 等 行业 ,新 
兴 的 分 享 经 济 领域 ,婚恋 、 交 友 等 生活 场景 等 领域 都 可 以 用 到 芝麻 信用 ,如 图 7-14 所 示 。 世 
麻 信用 今后 还 能 够 产生 服务 于 不 同 商业 领域 的 信用 报告 。 


以 金融 服务 新 的 商业 场景 





由 商业 场景 拓展 金融 服务 
图 7-14 未 来 的 信用 商业 生态 
如 图 7-15 所 示 为 市 场 化 征 信 机 构 给 社会 带 来 的 改变 。 
促进 诚信 社会 建设 
A 帮助 其 降低 风险 评估 成 本 











互相 补充 信用 数据 





金融 
机 构 
形成 更 加 完整 的 反馈 信用 评估 的 使 用 情况 
个 人 信用 “名 片 ” 提高 征 信 体 系 的 有 效 性 
帮助 其 授 选 高 信用 优质 
帮助 其 享受 更 便利 的 商业 服务 
反馈 信用 评估 的 使 用 情况 提供 动态 的 海量 数据 
提高 征 信 体系 的 有 效 性 ww 有 助 于 提高 征 信 体 系 的 有 效 性 


让 信用 等 于 财富 
图 7-15 市 场 化 征 信 机 构 带 给 社会 的 改变 


1. 商业 价值 

中 小 企业 征 信 和 是 个 难题 ,尤其 在 国内 ,人 行 的 征 信 中 心 只 能 通过 银行 获取 企业 的 贷款 和 
还 贷 信息 ,对 于 很 难 从 银行 获得 融资 的 中 小 企业 ,人行 掌握 的 信息 几乎 真空 ,阿里 巴巴 具备 
中 小 企业 互联 网 交易 信息 ,在 该 领域 具备 十 几 年 的 商业 数据 积累 。 

2. 社会 价值 


美国 的 “FICO” 是 全 球 最 著名 的 信用 打分 私企 。 大 部 分 美国 人 都 会 有 一 个 属于 自己 的 
分 数 ,高 于 一 定 标准 ,申请 信用 卡 或 办 贷款 就 会 一 路 顺风 ; 低 于 一 定 标准 ,相同 的 申请 就 可 
能 困难 重重 ,需要 比分 数 高 的 人 多 提供 一 大 堆 材 料 。 欧 美 信用 局 参考 日 常生 活 的 很 多 方面 
数据 ,例如 购物 出 行 . 电 费 水 费 甚 至 地 铁 逃 票 都 会 成 为 影响 信用 的 潜在 因素 。 很 多 时 候 我 们 
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之 所 以 感觉 外 国人 更 守 规 矩 , 并 不 是 全 部 因为 他 们 道德 崇高 ,而 是 整个 信用 环境 都 在 鼓励 大 
家 守 规 矩 。 中 国 的 征 信 市 场 当然 也 能 达到 *FICO? 这 样 的 效果 。 除 了 央行 征 信 系统 之 外 , 随 
着 阿里 .腾讯 这 些 国内 最 有 创造 力 的 互联 网 企业 加 入 ,个 人 信用 会 成 为 越 来 越 重要 的 个 人 标 
签 。 今后 的 人 们 不 会 直到 信用 卡 和 逾期 影响 房贷 才 发 现 征 信 体 系 的 存在 ,而 是 从 平时 生活 中 
就 开始 有 意识 地 为 自己 积攒 信用 ,良好 的 信用 又 会 反 过 来 带 给 大 家 更 多 方便 。 传 统 信 用 机 
构 与 新 兴 民 营 征 信和 机 构 的 开放 合作 、 社 会 协同 会 带 给 每 个 企业 、 百 姓 更 好 的 社会 公共 服务 与 
商业 价值 ,真正 在 工作 生活 的 每 个 领域 做 到 “让 信用 等 于 财富 ”。 
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随 着 移动 互联 网 时 代 的 到 来 , 越 来 越 多 的 公司 正在 创造 一 种 可 能 性 ,把 虚拟 网 络 世界 中 
的 大 数据 和 地 理 信息 位 置 结合 起 来 。 通 过 利用 连接 移动 设备 诸如 智能 手机 、 室 内 场地 
Wi-Fi 网 络 . 低 成 本 的 蓝牙 通信 功能 以 及 其 他 几 种 特殊 的 技术 ,位 置 分 析 厂 商 已 经 使 人 们 有 
可 能 获得 位 置 分 析 解 决 方案 ,并 能 够 快速 获取 信息 ,以 很 低 的 成 本 获取 分 析 结果 一 追踪 到 
客户 ,并 把 位 置 发送 到 供应 商 那里 进行 分 析 ,通过 一 系列 精密 的 仪表 ,获得 可 操作 的 数据 访 
问 ,最 终 实 现 精准 营销 策略 。 

数据 "地 图 "不仅 是 地 理 空间 的 地 图 ,而 且 涵盖 着 地 图 上 每 个 点 的 服务 信息 和 每 时 每 刻 ， 
处 在 不 同位 置 上 的 每 个 人 的 需求 和 偏好 信息 ,因此 数据 地 图 既是 个 人 生活 出 行 的 便捷 工具 ， 
也 是 智慧 城市 建设 的 好 帮手 。 


8.1 便捷 交通 大 数据 服务 


当前 ,大 数据 已 经 上 升 为 国家 战略 ,为 此 国家 2015 年 发 布 了 一 系列 的 指导 性 文件 。 
2015 年 6 月 , 国 办 发 (2015]51 号 :《 国 务 院 办 公 厅 关于 运用 大 数据 加 强 对 市 场 主体 服务 和 
监管 的 若干 意见 》; 2015 年 8 月 ,国务院 关 于 印发 (促进 大 数据 发 展 行动 岗 要) 的 通知 ; 2015 
年 年 底 , 国 务 院 常 务 会 议 通 过 了 (关于 促进 大 数据 发 展 的 行动 岗 要》, 强 调 将 大 数据 打造 成 新 
常态 下 经 济 提 质 增 效 升级 的 新 引擎 ,为 经 济 发 展 和 社会 进步 提供 更 加 有 力 的 支撑 。 为 此 各 
政府 部 门 .行业 及 相关 企业 陆续 掀起 了 数据 挖掘 、 分 析 的 热潮 。 

北京 市 政 交 通 一 卡通 有 限 公 司 经 过 多 年 的 发 展 及 运营 , 自 2006 年 5 月 ,其 一 卡通 卡 发 
卡 量 已 超过 9000 万 张 , 在 公交 、 地 铁 .出 租 . 加 油 站 、 公 租 自行 车 \ 停 车场, 公园 .学籍 .小 额 消 
费 等 十 大 领域 24 个 行业 得 到 广泛 应 用 ,系统 日 均 处 理 交 易 约 1600 万 笔 , 历 史 累 积 数据 
440 亿 笔 ,交易 详细 记录 了 出 行 OD( 交 通 起 止 点 ) .出 行 时 间 、 交 通 工具 之 间 的 换 乘 及 线路 等 
信息 。 结 合 大 数据 理念 ,开展 对 海量 业务 数据 进行 深加工 ,挖掘 公共 交通 和 商业 运行 数据 信 
息 ,对 政府 部 门 ` 公 众 和 商家 提供 信息 参考 和 咨询 服务 变 得 尤为 重要 。 表 现在 交通 、 城 市 规 
划 等 政府 部 门 对 于 市 民 公共 交通 轨迹 分 析 及 出 行规 律 需 要 一 卡通 数据 做 支持 ; 一 卡通 公司 
内 部 对 于 分 析 业 务实 质 , 优 化 业务 流程 ,需要 大 数据 分 析 为 决策 提供 数据 支持 ; 对 于 运营 业 
主 和 商户 ,在 决策 和 商户 精准 营销 方面 也 迫切 需要 提供 数据 支持 ; 而 结合 持 卡 人 的 使 用 习 
惯 和 需求 ,通过 数据 分 析 为 持 卡 人 提供 更 好 的 服务 体验 和 更 加 多 样 化 的 产品 形态 ,提供 方便 
快捷 的 换 乘 路 线 , 提升 用 户 体验 和 黏 性 。 在 此 背景 下 ,北京 市 政 交 通 一 卡通 有 限 公司 自 
2014 年 基于 互联 网 ,大 数据 和 云 计 算 等 技术 开始 探索 对 此 海量 数据 的 开发 和 利用 ,并 产生 
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了 一 系列 的 成 果 。 
8.1.1 城市 公共 交通 存在 的 问题 及 其 现状 


随 着 城市 化 的 不 断 发 展 ,城市 人 口 也 快速 增长 ,从 而 导致 城市 出 行人 口 的 大 幅 上 升 , 进 
而 引发 乘 车 难 ? 等 社会 问题 。 造 成 这 些 问题 的 原因 是 多 方面 的 ,其 中 最 根本 的 原因 就 是 城 
市 公共 交通 体系 的 不 完善 。 

面 对 这 些 问题 ,政府 及 有 关 部 门 也 出 台 并 实施 了 一 系列 的 解决 措施 ,但 “ 乘 车 难 ” 等 问题 
还 是 城市 的 一 大 难题 。 

就 目前 来 看 ,城市 交通 是 阻碍 城市 发 展 的 重要 因素 之 一 。 加 大 力度 关注 与 发 展 城市 公 
共 交 通 , 是 解决 城市 交通 问题 的 重要 方式 ,政府 方面 也 明确 提出 优先 发 展 城市 公共 交通 的 发 
展 策略 。 但 是 由 于 我 国 城市 公共 交通 起 步 较 晚 ,投资 较 大 ,范围 较 大 等 影响 因素 ,使 我 国 城 
市 公共 交通 仍 属于 探索 发 展 阶段 , 仍 存 在 一 些 问题 。 

公共 交通 是 城市 的 基础 建设 行业 之 一 , 它 不 仅 具 有 生产 性 的 特点 ,同时 还 具有 服务 性 及 
公益 性 的 特点 。 城 市 公共 交通 是 影响 整个 城市 社会 经 济 发 展 的 基本 因素 ,但 随 着 经 济 体制 
改革 深化 发 展 以 及 社会 主义 经 济 体制 的 确立 ,公交 管理 体制 中 的 各 种 问题 不 断 暴 露出 来 。 
具体 来 说 ,主要 有 以 下 几 个 方面 。 

首先 ,在 特定 时 间 段 .特定 地 点 ,堵车 成 为 城市 居民 心中 之 痛 。 目 前 我 国 城市 公共 交通 
形式 比较 单一 ,主要 是 以 公交 车 为 主 。 公 交 车 的 运营 密切 关系 着 大 部 分 城市 居民 的 出 行 。 
但 是 在 特定 时 间 段 ,例如 上 下 班 高 峰 期 ; 特定 地 点 ,如 中 小 学 门口 ,购物 商场 门口 等 都 成 为 
长 时 间 、 大 规模 堵车 的 重要 时 间 点 ,地 点 。 和 国外 交通 发 达 的 国家 相 比 ,我 国 的 城市 公共 交 
通 面临 着 更 艰巨 的 任务 。 众 所 周知 ,中 国 是 世界 上 人 口 最 多 的 国家 ,相对 于 城市 实际 人 口 的 
快速 增长 ,城市 公共 交通 的 缓慢 发 展 还 存在 着 差距 。 

其 次 ,公共 交通 部 分 路 线 的 规划 安排 不 甚 合理 ,一 些 路 线 公交 车 过 于 密集 ,而 另 一 些 路 
线 公交 车 又 较 少 ,甚至 缺失 。 根 据 有 关 调查 ,许多 城市 普遍 存在 公交 车 线路 设置 重复 ,一 条 
路 线 上 有 近 十 几 条 公交 车 运行 ,而 城市 边缘 居民 地 区 、 街 道 尚未 开通 公共 交通 路 线 , 使 这 些 
地 区 居民 日 常 出 行 非常 困难 。 

最 后 ,公共 交通 管理 不 到 位 ,缺乏 科学 合理 的 管理 。 虽 然 社会 各 个 方面 均 认识 到 公共 交 
通 是 解决 城市 交通 问题 的 重要 途径 之 一 ,但 是 在 实际 的 实施 过 程 中 , 却 没有 完全 严格 执行 。 
在 城市 公共 交通 规划 中 ,公共 交通 整体 规划 不 到 位 ,管理 跟 不 上 ,缺乏 科学 的 管理 方式 .专业 
的 管理 人 员 。 


8.1.2 大 数据 服务 应 用 


1. 应 用 方式 

公共 交通 大 数据 服务 从 城市 一 卡通 清算 中 心 交 易 库 .客户 数 据 库 .公交 行业 数据 库 、 轨 
道 交 通行 业 数据 库 .消费 数据 库 、 停 车 行业 数据 库 .互联 网 业务 数据 库 等 抽取 数据 ,对 这 些 结 
构 化 和 非 结 构 化 的 数据 进行 抽取 清洗、 整合 .转换 , 存 人 共享 数据 库 。 

统计 分 析 通 过 OBIEE(Oracle Business Intelligence Enterprise Edition) 采 用 一 定 的 算 
法 和 模型 等 读 取 处 理 数据 ,结果 保存 在 服务 层 数据 库 ,为 用 户 提供 可 信 的 数据 ,还 可 通过 可 
视 化 以 各 种 统计 图 展现 出 来 ,通过 PC、 手 机 可 以 看 到 结果 。 





系统 提供 可 视 化 的 操作 界面 ,用 户 可 自己 定义 统计 和 参数 ,系统 计算 分 析 后 给 出 对 应 的 
图 表 。 

2. 技术 原理 

数据 分 析 平 台 采 用 领先 的 Hadoop 架构 ,有 效 结合 NoSQL、 关 系 型 和 列 式 数 据 库 的 特 
性 ,同时 有 效 预 留 基 于 内 存 技 术 的 新 一 代数 据 库 。 

ETL 抽取 工具 根据 一 卡通 数据 特征 研发 ,数据 分 析 工 具 根 据 需 求 分 期 研发 ,使 用 
Echart 实现 各 种 统计 图 表 的 生成 ,数据 展示 平台 采用 Java 开发 ,B/S 模式 。 

3. 平台 功能 

数据 分 析 平台 提供 了 完整 的 统计 分 析 功能 ,通过 分 类 法 .回归 分 析 法 .关系 规则 法 、Web 
数据 挖掘 法 等 ,包括 来 自 于 统计 学 、 机 器 学 习 、 人 工 智能 等 方面 的 分 析 算 法 和 数据 模型 ,包括 
如 关联 .分 类 ,预测 等 完整 的 全 面 挖掘 分 析 功 能 。 能 够 按照 时 间 段 .卡号 段 进 行 统计 ,能 够 根 
据 卡号 进行 轨迹 追踪 ,能 够 从 复杂 的 数据 集合 中 发 现 新 的 关联 规则 ,继而 进行 深度 挖掘 ,得 
到 有 效用 的 新 信息 。 平 台 功 能 包括 数据 ETL 模块 .数据 处 理 模块 .数据 模型 .数据 报表 和 数 
据 展示 5 大 部 分 功能 ,如 图 8-1 和 图 8-2 所 示 。 











图 8-1 平台 数据 展示 部 分 界面 截图 


4. 数据 抽取 

ETL 的 目的 是 形成 一 个 具有 统一 视图 的 干净 的 数据 库 , 这 个 数据 库 包含 分 析 所 需要 的 
所 有 数据 。 

ETL 的 过 程 可 以 归纳 为 以 下 几 个 阶段 。 

(1) ETL 抽取 策略 。 包 含 ETL 架构 、 关 键 ETL 过 程 中 采用 的 方法 、 关 键 组 件 的 定义 、 
数据 质量 管理 策略 、 项 目 流程 等 。 平 台中 ETL 抽取 策略 采用 增 量 抽取 和 全 量 抽取 相 结合 的 
方式 ,对 于 数据 量 较 大 且 更 新 频率 高 的 表 . 在 抽取 时 采用 增 量 抽 取 方 式 , 如 一 卡通 的 交易 流 
水 信息 ; 对 于 数据 较 小 ,更 新 频率 不 高 的 表 , 抽 取 时 采用 全 量 抽 取 , 如 POS 机 信息 、 行 业 代 








图 8-2 平台 数据 展示 部 分 界面 截图 


码 信 息 等 。 

(2) ETL 抽取 的 job( 作 业 )。 在 数据 整合 设计 的 过 程 中 ,所 有 的 设计 人 员 将 遵循 数据 
整合 策略 设计 中 约定 的 方法 。 数 据 整 合 策略 设计 过 程 是 一 个 高 度 迭 代 的 过 程 ,需要 设计 人 
员 不 断 地 根据 一 卡通 数据 分 析 的 具体 数据 状况 调整 和 优化 设计 ,而 且 在 设计 完成 后 ,需要 
ETL 开发 人 员 不 断 地 根据 业务 数据 的 实际 情况 反馈 修改 意见 进行 修改 。 

(3) ETL 的 job 开发 。 这 个 开发 过 程 需要 不 断 地 用 实际 的 业务 数据 验证 是 否 设 计 已 经 
充分 考虑 了 所 有 的 业务 流程 。 

(4) 集成 测试 ,数据 质量 测试 。 集 成 测试 是 为 了 保证 大 量 的 ETL job 可 以 彼此 协同 完 
成 数据 整合 过 程 ,这 个 阶段 更 多 的 是 对 ETL 调度 和 job 之 间 的 接口 的 测试 ; 数据 质量 测试 
是 数据 整合 的 核心 ,这 个 阶段 的 数据 质量 测试 是 整个 项 目的 数据 质量 管理 的 一 部 分 ,数据 质 
量 测试 和 其 他 数据 质量 管理 过 程 中 的 阶段 一 样 ,需要 业务 人 员 和 IT 人 员 的 密切 配合 ,而 且 
需要 测试 人 员 深刻 理解 数据 质量 管理 过 程 中 的 最 佳 实践 。 

5. 数据 清洗 转换 


此 阶段 主要 是 根据 具体 系统 数据 需求 确定 清洗 原则 ,主要 包括 : 数据 检查 与 稽核 ; 数 
据 类 型 统一 转换 ; 空 数据 赋 默 认 值 ; 数据 排序 与 拆 分 ; 脏 数 据 处 理 等 。 

通过 对 ETL 过 来 的 源 数 据 进 行 一 系列 处 理 生 成 符合 数据 仓库 结构 的 数据 ,再 导入 数据 
仓库 中 。 

6. 数据 加 载 

根据 业务 分 析 的 需求 ,通过 构建 数据 模型 ,将 清洗 的 数据 按照 数据 模型 进行 装载 。 

便捷 交通 的 核心 是 人 ,让 公众 便利 获得 多 维度 、 准 确 便捷 的 出 行 信息 服务 是 便捷 交通 的 
一 个 重要 出 发 点 ,当前 市 场 的 常用 服务 仅 提供 路 径 选 择 和 粗略 的 旅程 时 长 估算 。 北 京 市 政 
交通 一 卡通 公司 正在 探索 利用 历年 累积 的 海量 数据 ,挖掘 基于 出 行路 径 、 出 发 时 间 点 、 旅 程 
时 长 .拥挤 度 .价格 等 维度 的 历史 出 行规 律 ,并 结合 天 气 状况 、 车 辆 限行 .是 否 工作 日 等 因素 ， 
为 公众 提供 个 性 化 的 最 佳 出 行 匹 配方 案 。 该 方案 可 允许 使 用 者 输入 “最 快捷 “最 便宜 ”最 舒 


适 (拥挤 度 )”“ 最 环保 ?等 单一 参数 或 复合 参数 ,依据 不 同 的 出 发 时 点 提供 不 同 的 公共 交通 ( 含 
公 租 自行 车 ) 出 行路 线 规划 ,以 满足 市 民 对 出 行 越 来 越 高 的 便捷 高效、 绿色、 舒适 等 需求 。 


8.1.3 个 人 应 用 场景 


上 述 出 行 方案 与 优 网 科技 的 实时 手机 信和 令 解 决 方案 相 结合 ,将 产生 更 佳 的 聚合 效应 。 出 
行 中 ,利用 手机 的 定位 功能 ,在 远 端 通过 云 计算 监控 出 行路 径 中 的 拥堵 情况 与 预测 结果 的 拟 合 
度 , 实 时 计算 途经 路 段 相 应 的 交通 状况 ,对 预计 换 乘 的 节点 进行 预警 ,通过 App 实时 优化 既定 
出 行 方案 ,为 持 卡 人 提前 进行 拥堵 疏导 建议 ,使 公共 交通 出 行 更 为 便捷 灵活, 如 图 8-3 所 示 。 
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图 8-3 公共 交通 出 行 App 场景 描述 


出 行 前 : 某 天 , 晴 , 星 期 一 ,预计 上 午 9 点 从 A 地 出 发 ,乘坐 公共 交通 工具 去 BB 地 ,打开 
App 线路 查询 功能 ,输入 “最 低 价 ”为 第 一 选择 “最 快捷 ”为 第 二 选择 “最 舒适 (拥挤 度 )” 为 
第 三 选择 。App 调用 一 卡通 数据 分 析 平 台 ,利用 十 多 年 公众 实际 出 行 记录 搭建 的 出 行 模 
型 ,筛选 条 件 为 “星期 一 “天 气 晴朗 ”上午 9 点 ”从 A 地 出 行 至 B 地 的 全 部 样本 ,为 其 迅速 
推荐 最 佳 出 行 线路 规划 ,如 图 8-4 所 示 。 

出 行 中 : 利用 手机 信 令 数据 ,App 实时 计算 未 完成 行程 的 公共 交通 状况 ,未 换 乘 节点 的 
拥堵 状况 ,并 根据 各 路 况 现 状 随时 优化 出 行 方案 ,如 图 8-5 所 示 。 
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出 发 地 : 湿 家 庙 所 地 图 
目的 地 : 和 平 里 商务 楼 A 选 汉 
出 发 时 间 : 6.35 分 优选 交通 工具 : 无 限制 
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图 8-4 公共 交通 出 行 App 线路 推荐 
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高 效 的 城市 公共 交通 是 城市 发 展 的 方向 ,如 何 应 对 公共 交通 发 展 中 的 问题 ,需要 规划 设计 、 
建设 .运营 .管理 和 服务 等 方面 全 面 统筹 解决 ,实施 公共 交通 的 可 持续 发 展 。 一 个 城市 只 有 
有 具备 了 优质 快速 的 公共 交通 网 络 , 才 会 有 一 个 通畅 便捷 的 城市 交通 系统 ,才能 为 市 民 提供 一 
个 环保 ,安全 快捷、 和 舒适、 多 层次 的 公共 交通 服务 ,才能 真正 促进 城市 的 全 面 发 展 ,才能 提高 
城市 的 社会 竞争 能 力 。 

北京 作为 特大 型 城市 和 首都 ,公共 交通 出 行 的 规模 .交通 工具 的 类 型 和 数量 、 拥 堵 的 时 
间 分 布 和 程度 在 全 国 范围 内 都 十 分 突出 ,问题 解决 的 复杂 程度 也 远 超 大 部 分 城市 。 因 此 , 北 
京 市 政 交 通 一 卡通 公司 在 北京 复杂 的 交通 环境 下 ,探索 并 部 分 实际 应 用 的 “互联 网 十 便捷 交 
通 ” 系 列 案例 和 方法 论 对 其 他 城市 具有 借鉴 价值 ,有 利于 “互联 网 十 便捷 交通 ”在 全 国 的 落地 
和 应 用 推广 ,增强 全 国 公共 交通 领域 的 治理 能 力 和 提升 公共 交通 运输 的 服务 品质 。 


8.2 ”人群 流动 监控 


2014 年 12 月 31 日 上 海外 滩 发 生 拥挤 踩踏 事件 ,造成 26 人 死亡 ,49 人 受伤 的 严重 后 
果 。 据 事后 调查 发 现 ,当晚 自 20 时 期 ,外滩 景区 出 现 进 多 出 少 的 情况 ,大 量 市 民 涌 向 外 滩 观 
景 平 台 , 呈 现 人 员 逐 步 聚集 态势 。20 时 至 21 时 约 12 万 人 ,21 时 至 22 时 约 16 万 人 ,22 时 
至 23 时 约 24 万 人 ,23 时 至 事件 发 生 时 约 31 万 人 。 根 据 上 海 市 政府 新 闻 办 公 室 发 布 的 实 
时 公共 交通 信息 称 截至 22 点 40 分 ,上 海 全 路 网 客流 已 超过 1003 万 人 次 ,“ 再 创 历史 新 高 ”。 

根据 事后 对 事件 的 分 析 ,发 现 导致 事故 的 主要 原因 有 : 对 新 年 倒计时 活动 变更 风险 未 
做 评估 ; 新 年 倒计时 活动 变更 信息 宣传 严重 不 到 位 ; 预防 准备 严重 缺失 ; 对 监测 人 员 流 量 
变化 情况 未 及 时 研判 .预警 ,未 发 布 提示 信息 ; 应 对 处 置 失当 。 事 后 反思 中 也 提 到 需要 对 事 
件 监测 预警 ,进一步 提升 突 发 事件 的 防范 能 力 。 

为 避免 此 类 事件 的 再 次 发 生 , 建 立 人 和 群 流动 趋势 的 实时 信息 系统 成 为 一 种 重要 需求 。 
由 于 随 着 居民 生活 水 平 的 提高 和 技术 的 发 展 ,基本 实现 了 人 手 一 部 移动 终端 的 情形 ,除了 传 
统 的 摄像 头 的 画面 监控 的 途径 外 ,更 可 以 通过 移动 终端 信号 .基站 数据 等 途径 获取 到 确定 位 
置 的 人 群 聚集 情况 ,通过 建立 数据 分 析 平 台 . 可 以 有 效 地 监测 在 特定 区 域 的 人 群 聚 集 情况 ， 
有 助 于 及 时 预警 及 提前 准备 好 相应 的 应 对 措施 。 

基于 对 移动 通信 网 络 信 令 的 数据 分 析 , 研 发 出 人 群 区 域 分 析 系 统 ,可 以 实现 对 密集 区 域 
的 人 流 实时 监控 、 预 防 告警 等 ,指导 其 合理 有 效 地 了 解 人 流 流 动 趋势 ,避免 事故 发 生 。 提 供 
历史 数据 的 环比 .同比 等 不 同 的 分 析 方法 和 展现 ,实现 对 人 和 群 流动 的 预测 分 析 , 实 现 有 效 的 
事前 预警 , 事 中 处 理 及 事后 总 结 功能 。 

通过 整合 分 析 政府 数据 ,用户 的 移动 /固定 网 络 数据 .公共 部 门 现 有 的 各 类 数据 ,采用 大 
数据 分 析 技 术 ,可 以 建立 一 套 基于 人 和 群 聚集 和 流动 的 信息 化 的 监控 预警 系统 ,对 城市 的 主要 
场所 人 流 密集 程度 进行 动态 的 监控 ,做 到 事前 预警 . 事 中 处 置 .事后 分 析 。 同 时 通过 不 断 积 
累 数据 .优化 模型 ,逐步 建立 综合 化 的 大 型 的 监控 、 预 警 平台 ,对 建设 交通、 旅游 和 商业 等 多 
个 领域 部 署 监视 ,促进 智慧 城市 .智慧 交通 ,城市 科技 进步 与 产业 发 展 。 

基于 大 数据 的 人 群 流动 监测 系统 整体 构架 如 图 8-6 所 示 。 

该 人 群 流动 监测 系统 的 数据 来 源 主要 是 用 户 位 置 数据 、 业 务 量 数据 、 基 站 数据 和 用 户 互 
联网 行为 相关 数据 ,并 将 已 有 的 城市 视频 监控 系统 数据 接 入 基于 大 数据 的 人 群 流动 信息 分 


从 我 国 城市 实际 情况 来 看 ,优先 发 展 城市 公共 交通 是 正确 的 战略 思想 。 全 面 建设 一 个 
公 
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图 8-6 人 和 群 流动 监测 系统 


析 平 台 。 通 过 相应 算法 可 以 获得 相关 区 域 的 人 群 分 布 热度 情况 、. 区 域 用 户 数 、 网 络 关注 热 词 
分 析 、 人 员 数 据 分 析 , 并 可 以 通过 可 视 化 模块 实时 动态 地 对 用 户 分 布 数据 进行 展现 。 通 过 扩 
展 相应 的 定制 预警 功能 ,通过 多 种 形式 提供 相应 区 域内 的 信息 预警 服务 ,总 体 上 可 实现 事前 
预警 ,按照 区 域 灵 活 配置 人 群 密度 预警 阔 值 ` 人 群 密集 预警 .通过 历史 数据 对 人 流 趋势 智能 
预测 ; 事 中 应 急 ,通过 信息 发 布 平台 提供 相应 信息 发 布 、 疏 导 用 户 、 应 急 联动 各 相关 部 门 ; 
事后 分 析 , 事 后 结合 记录 的 数据 进行 回放 和 实践 总 结 。 

利用 新 建 预警 平台 回顾 上 海外 滩 事 件 的 时 候 发 现 ,从 当晚 23 点 人 员 分 布 的 热力 图 看 ， 
外 滩 、 南 京东 路 站 附近 、 浦 东 滨 江 大 道 、 陆 家 嘴 附 近 、 天 潼 路 附近 是 人 流 高 度 集中 区 域 ,其 次 
是 外 滩 源 .南京 路 步行 街 . 梅 龙 镇 广场 和 八佰伴 附近 人 流 也 较为 密集 。 对 比 在 陈毅 广场 、 外 
滩 源 、 陆 家 嘴 三 个 主要 基站 的 当天 小 时 人 数 和 历史 平均 人 数 水 平 发 现 , 三 个 基站 均 在 当天 
19 点 到 20 点 ,大 幅 超过 历史 平均 人 数 的 一 倍 以 上 ,22 点 到 23 点 基站 大 数据 达到 峰值 ,超过 
历史 平均 人 数 的 八 九 倍 , 陈 毅 广 场 和 外 滩 源 在 0 点 达到 峰值 。 从 人 员 构 成 来 看 ,本 市 人 员 的 
占 比 总 数 约 为 40% ,大 部 分 来 自 外 省 如 安徽 .江苏 河南 、 江 西 . 浙 江 等 省 份 。 人 和 群 流动 统计 
如 图 8-7 所 示 。 

基于 大 数据 的 人 群 流动 分 析 系 统 的 建立 ,依托 于 通信 企业 所 拥有 的 数据 优势 和 技术 优 
势 , 通 过 大 数据 的 方法 实现 人 群 流动 的 监测 、 预 警 监测 ,布置 在 热门 景区 、 人 流量 集中 的 区 
域 ,可 以 做 到 事前 预警 、 事 中 处 置 和 事后 分 析 , 有 效 地 预防 和 降低 类 似 安全 事件 的 发 生 。 

在 这 个 案例 中 ,需要 在 网 上 获得 海量 的 用 户 信息 进行 计算 并 存储 统计 得 到 的 历史 信息 。 
数据 分 布 广泛 .数据 体 量 大 、 数 据 实 时 性 与 计算 速度 的 要 求 很 高 ,这 些 要 求 只 有 在 大 数据 技 
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术 的 帮助 下 才能 完成 。 


8.3 实时 车 流 控 制 系统 


随 着 我 国人 民生 活水 平 的 不 断 提 高 ,我国 的 汽车 保有 量 在 近 几 年 一 直 处 于 持续 上 升 的 
趋势 ,截至 2015 年 年 底 我 国 的 机 动车 保有 量 已 达到 2. 79 亿 。 交 通 拥堵 越 来 越 成 为 城市 交 
通 的 一 个 难题 。 城 市 交通 拥堵 问题 不 仅 为 居民 生活 造成 经 济 和 时 间 上 的 双重 负面 影响 , 对 
于 社会 经 济 的 发 展 也 造成 了 巨大 的 损失 ,数据 显示 , 因 交 通 问题 引起 的 社会 经 济 的 损失 额 约 
占 GDP 的 5%~~8%。 城 市 拥堵 的 问题 已 不 再 限于 一 线 城市 ,已 经 逐渐 蔓延 到 二 线 城市 ,而 
随 着 我 国 汽车 销量 和 保有 量 的 持续 增加 ,国内 主要 的 一 二 线 城 市 将 步 人 整体 的 交通 拥堵 
时 期 。 

随 着 机 动车 数量 的 增加 ,对 交通 和 环境 都 带 来 了 巨大 的 压力 ,由 于 汽车 在 拥堵 情况 下 瞩 
气 排放 更 加 严重 ,治理 拥堵 对 于 减少 汽车 污染 也 很 重要 。 汽 车 作为 能 源 消 耗 和 废气 排放 的 
大 户 ,如 何 更 好 地 做 到 节能 减 排 已 成 为 令 人 关注 的 问题 。 从 近 几 年 来 雾 仁 问题 较为 严重 的 
北京 市 来 看 ,2015 年 北京 市 的 汽车 拥有 量 为 561 万 辆 ,排放 污染 物 70 万 吨 , 而 作为 引起 北 
京 雾 儿 问题 的 一 个 重要 测量 因子 pm2. 5 的 来 源 数据 看 ,31. 1% 的 排放 源 来 自 于 机 动车 。 减 
少 尾气 污染 除了 在 技术 层面 通过 采用 更 先进 的 技术 降低 污染 的 排放 外 ,通过 更 高 效 的 汽车 
导航 和 交通 信息 服务 也 能 够 有 效 地 减少 汽车 排放 ,从 另 一 个 方面 缓解 汽车 带 来 的 污染 问题 。 

面 对 上 述 交 通 和 环境 问题 ,国内 某 通信 企业 基于 自身 拥有 广泛 的 基站 和 海量 数据 的 优 
势 ,结合 自 有 硬件 和 技术 优势 ,构建 基于 海量 数据 的 大 数据 交通 信息 监测 平台 ,通过 数据 共 
享 等 方式 服务 于 政府 有 关 部 门 .汽车 厂家 、 地 图 导航 企业 等 机 构 和 商家 ,合作 发 挥 数 据 的 价 
值 ,共同 为 缓解 交通 和 环境 问题 做 出 一 定 的 贡献 。 

基于 大 数据 的 交通 信息 监测 平台 的 总 体 结构 框架 图 如 图 8-8 所 示 。 

该 交通 信息 监测 平台 主要 数据 来 源 如 下 。 

(1) 用 户 数据 ,特别 是 主动 定位 模块 获取 到 的 用 户 位 置 数据 。 

(2) 定位 平台 数据 ,包括 基站 数据 、Wi-Fi 数据 ,固定 电话 分 布 数据 及 宽带 接 人 网 络 位 置 
数据 等 。 

(3) 其 他 数据 ,来 源 包含 政府 、 合 作 伙 伴 等 .如 地 图 导航 终端 的 数据 共享 。 

交通 信息 监测 平台 通过 对 获取 的 实时 位 置信 息 进行 计算 、 分 析 、 挖 气 和 存储 ,形成 实时 
动态 的 交通 信息 数据 流 , 通 过 标准 化 、 可 视 化 的 输出 模式 为 相应 的 客户 提供 交通 信息 、 安 全 、 
终端 数据 等 多 维度 的 信息 服务 。 同 时 对 数据 进行 存储 ,结合 历史 数据 对 照 分 析 做 出 相应 的 
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图 8-8 基于 大 数据 的 交通 信息 监测 平台 


预测 ,并 在 不 断 积累 数据 的 过 程 中 不 断 优化 预测 分 析 结 果 ,提升 平台 的 计算 分 析 能 力 。 
基于 此 的 交通 数据 信息 数据 处 理 流程 如 图 8-9 所 示 。 
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图 8-9 交通 数据 信息 数据 处 理 流 程 


交通 信息 数据 获取 平台 可 以 获取 到 当前 交通 网 络 上 有 效用 户 的 实时 交通 数据 ,利用 用 
户 速度 算法 模型 ,得 出 每 个 用 户 的 实时 速度 数据 ,并 可 以 对 当前 区 域 的 用 户 的 速度 标签 做 多 
源 优化 ,输出 区 域 交通 速度 数据 ,进而 通过 可 视 化 模块 对 城市 的 不 同 区 域 的 道路 信息 实现 可 
视 化 实时 监控 ,为 用 户 提供 实时 的 数据 服务 ,结合 智能 导航 算法 或 相关 工具 ,提供 更 优质 的 


出 行 方 案 。 同 时 还 可 以 结合 现 有 数据 实现 交通 运行 情况 的 历史 数据 对 比分 析 和 实时 查询 ， 
为 政府 智慧 城市 .交通 等 相关 部 门 提供 专业 的 、 准 确 的 数据 服务 。 

通过 建立 交通 信息 监测 平台 ,根据 不 同 的 使 用 需求 ,可 以 在 现 有 的 摄像 头 为 主要 途径 的 
交通 监测 手段 的 基础 上 ,从 另 一 种 途径 实现 实时 的 交通 信息 发 布 和 道路 交通 情况 的 监测 ; 
又 可 以 通过 对 历史 数据 的 积累 ,研究 其 变化 趋势 ,对 未 来 的 发 展 情况 形成 预测 ; 也 可 以 用 来 
分 析 重 点 城市 道路 密度 、 汽 车 保有 量 、 人 口 .节假日 交通 状况 ,城市 主要 交通 状态 等 方面 ; 还 
可 以 为 未 来 政府 智慧 城市 的 建设 提供 专业 ,准确 的 数据 、 信 息 服务 。 

该 通信 企业 基于 大 数据 的 交通 信息 监测 平台 也 具有 如 下 优势 和 特点 。 

(1) 海量 的 、 多 维度 的 交通 数据 ; 

(2) 高 精度 的 地 图 数据 ; 

(3) 坚实 的 硬件 和 数据 网 络 支 持 ; 

(4) 高 性 能 的 大 数据 的 分 析 技 术 ; 

(5) 多 种 数据 可 视 化 的 呈现 ; 

(6) 平台 提供 易 用 的 开发 应 用 编程 接口 及 开发 套件 ,支持 多 种 交通 信息 技术 指标 。 

通信 企业 依托 自 有 的 硬件 、 基 站 、 用 户 数据 和 技术 优势 ,建立 起 基于 大 数据 的 交通 信息 
监测 平台 ,从 众多 的 信息 源 获取 实时 数据 ,通过 对 海量 数据 的 挖掘 分 析 , 实 现实 时 \ 高 效 的 交 
通信 息 监测 ,通过 不 同 模块 实现 对 数据 价值 的 有 效 发 据 , 进 而 对 交通 、 安 全 等 多 个 领域 提供 
助力 。 

在 这 个 案例 中 ,需要 实时 从 网 上 获得 海量 的 移动 用 户 的 信息 、 地 图 信息 、 交 通 台 信息 进 
行 计算 ,并 要 存储 统计 得 到 的 历史 信息 。 数 据 分 布 广泛 ,数据 体 量 大 、 数 据 实时 性 与 计算 速 
度 的 要 求 很 高 ,这 些 要 求 只 有 在 大 数据 技术 的 帮助 下 才能 完成 。 


第 四 篇 ”大 数据 ,推动 新 型 政务 


随 着 新 一 轮 的 信息 技术 与 产业 、 经 济 和 和 社会 的 深度 融合 ,大 数据 日 渐 成 为 
社会 发 展 的 战略 性 资源 。 工 业 和 信息 化 部 赛 迪 智库 网 络 空间 研究 所 所 长 刘 权 
认为 ,大 数据 是 “未 来 的 新 石油 ”, 一 个 国家 拥有 数据 的 规模 、 活 性 及 解释 运用 的 
能 力 将 成 为 综合 国力 的 重要 组 成 部 分 ,未 来 对 数据 的 占有 和 控制 甚至 将 成 为 继 
陆 权 海 权 、 空 权 之 外 国家 的 另 一 个 核心 资产 。 

面 对 海 量 动态 多样 的 大 数据 ,传统 的 思维 方式 和 行为 方式 面临 巨大 批 
战 ,尤其 是 在 公共 服务 领域 。 大 数据 时 代 , 如 何 推进 社会 治理 与 政府 职能 转型 ， 
提升 政府 治理 和 公共 服务 能 力 和 水 平 ,成 为 一 个 全 新 的 课题 。 

中 国 计 算 机 学 会 (CCF) 大 数据 专家 委员 会 秘书 长 程 学 旗 表 示 , 大 数据 运用 
有 助 于 推动 政府 治理 理念 和 模式 ,进而 加 快 治理 体系 和 治理 能 力 现代 化 ,同时 
也 为 推动 政府 治理 决策 精细 化 和 科学 化 带 来 机 遇 。 在 大 数据 时 代 ,海量 数据 能 
够 对 经 济 社 会 运行 规律 进行 直观 呈现 ,使 政府 治理 所 依据 的 数据 资料 更 加 全 
面 , 从 而 降低 政府 治理 偏差 概率 ,提高 政府 治理 的 精细 化 和 科学 化 。 


> 大 数据 时 代 的 
E 税务 精细 化 管理 


使 -ee-e 


大 数据 技术 在 经 历 概念 炒作、 沉淀 之 后 ,当下 正在 逐步 应 用 到 各 个 行业 中 解决 实际 问 
题 , 例 如 ,电信 行业 的 详细 通话 记录 查询 、 电 商行 业 的 商品 推荐 、 金 融 行 业 的 风险 防 控 等 , 当 
然 还 有 很 多 其 他 的 例子 ,可 以 说 大 数据 技术 已 经 在 我 们 看 不 见 的 地 方 影响 着 生活 的 方 方 面 
面 。 数 据 也 有 属于 自己 的 基因 , 它 在 不 同行 业 中 展现 出 来 的 特性 是 不 同 的 ,对 其 价值 的 挖掘 
必须 要 遵从 其 本 身 的 特点 和 规律 。 

税务 机 关 作 为 国家 重要 的 职能 部 门 ,是 国家 财政 收入 支出 体系 中 最 重要 的 一 环 , 由 于 其 
工作 内 容 、 性 质 和 重要 性 ,在 早年 就 被 国家 纳入 了 “十 二 金 " 工 程 ,其 信息 化 程度 在 政府 职能 
部 门 中 一 直 排 在 前 列 。 随 着 信息 化 的 不 断 深入 ,税务 机 关 的 数据 在 数量 、 种 类 、 价 值 、 处 理 速 
度 上 已 经 满足 了 大 数据 的 标准 , 换 句 话说 ,数据 环境 已 经 逐渐 成 熟 , 具 备 应 用 大 数据 技术 的 
条 件 。 


9.1 大 数据 时 代 下 税务 工作 新 趋势 


9.1.1 税务 数据 新 趋势 


税务 工作 的 主要 任务 是 为 民 执法 ,为 国 聚 财 , 参 与 宏观 调控 国民 经 济 。 这 一 切 的 实施 依 
赖 于 对 纳税 人 按照 不 同 税率 进行 准确 的 征收 工作 。 如 何 合理 地 制定 不 同 的 税率 和 进行 高 效 
的 征收 ,在 已 有 税务 工作 经 验 的 基础 上 ,更 需要 对 税务 数据 进行 分 析 , 找 出 背后 的 规律 ,用 规 
律 科学 地 进行 指导 。 

可 以 说 未 来 的 税务 工作 应 该 更 多 地 围绕 税务 数据 展开 .然而 在 云 计 算 、 大 数据 、 互 联网 
十 推动 的 信息 化 浪潮 下 .税务 数据 本 身 也 发 生 了 变化 ,变化 趋势 如 图 9-1 所 示 。 
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大 数据 时 代 下 的 税务 数据 


图 9-1 税务 数据 的 变化 趋势 


Ta 大 数据 : 引爆 新 的 价值 点 


1. 税务 数据 量 的 增加 

税务 工作 本 身 就 是 一 个 复杂 的 系统 ,涉及 实体 众多 ,包含 税务 机 关 、 企 业 、 事 业 单位 、 个 
体 工商 户 、 单 个 自然 人 等 。 按 照 税种 又 分 为 营业 税 、 房 地 产 税 、 个 人 所 得 税 、 车 船 税 等 。 实 体 
和 税种 之 间 是 多 对 多 的 关系 ,管理 这 些 多 对 多 的 关系 本 身 就 将 产生 大 量 的 数据 。 

随 着 国家 大 力 推进 实体 经 济 的 发 展 , 越 来 越 多 的 单个 自然 人 参与 其 中 ,在 各 行 各 业 从 事 
着 种 类 繁多 的 经 济 活动 ,新 的 经 济 形态 层出不穷 ,Uber、Airbnb 等 代表 的 个 人 经 济 活动 成 为 
越 来 越 普遍 的 情况 ,导致 涉 税 实体 之 间 的 关系 越 来 越 复 杂 , 在 如 此 复杂 的 关系 网 中 ,针对 如 
此 频繁 的 个 人 经 济 行为 进行 记录 和 追踪 ,由 此 带 来 爆炸 式 的 数据 增长 ,如何 从 税务 工作 角度 
进行 管理 是 未 来 税务 部 门 必须 要 解决 的 问题 。 

2. 税务 数据 种 类 的 增加 

在 未 来 ,特别 是 互联 网 十 行动 进一步 推进 的 时 候 , 运 用 传统 的 税务 管理 思维 来 开展 税务 
工作 已 经 无 法 适应 新 时 代 的 需求 。 在 数据 层面 上 ,税务 数据 应 该 走出 去 ,和 外 部 的 单位 和 企 
业 开 展 合作 ,积极 地 引入 第 三 方 数据 ,用 来 很 好 地 补充 税务 数据 的 单一 性 。 

比如 在 核算 个 体 工商 户 应 纳税 额 的 环节 ,如 果 能 有 该 纳税 户 的 月 交易 数据 (刷卡 交易 ) 
和 互联 网 对 其 的 评价 和 关注 度 ,就 能 很 准确 。 同 时 税务 数据 在 其 他 领域 也 可 以 发 挥 很 大 的 
作用 ,比如 将 企业 的 纳税 情况 作为 参考 提供 给 征 信和 领域 使 用 ,当前 已 经 出 现 的 税 银 贷 就 是 相 
应 的 跨 部 门 合作 的 新 形势 。 

外 部 数据 的 引入 除了 在 量 上 带 来 增加 外 ,在 数据 种 类 上 也 会 更 加 丰富 。 从 单一 关系 型 
数据 库 的 结构 化 数据 到 类 似 XML 的 半 结 构 化 数据 ,再 到 声音 、 图 片 等 非 结 构 化 数据 ,今后 
都 会 是 税务 工作 所 需要 的 。 

3. 税务 数据 处 理 速度 的 加 快 

税务 数据 不 仅 在 量 上 和 结构 上 发 生变 化 ,对 其 处 理 速 度 也 会 有 更 高 的 要 求 。 原 因 有 三 
点 ,一 是 数据 量 和 种 类 的 增加 本 身 就 会 带 来 处 理 速度 的 下 降 , 所 以 要 提速 ; 二 是 在 应 对 突 发 
事件 和 监控 类 应 用 时 ,时 效 性 是 重要 的 性 能 指标 ; 三 是 数据 分 析 类 应 用 只 有 在 快 人 一 步 的 
情况 下 才能 发 挥 最 好 的 作用 , 先 做 出 正确 决策 的 人 往往 都 是 赢家 。 


9.1.2 税务 业务 新 趋势 


1. 智能 业务 

税务 工作 在 经 历 多 年 信息 化 建设 后 ,已 经 大 大 提高 了 办 税 效率 和 税收 服务 效果 ,但 是 在 
经 济 活动 种 类 和 数量 不 断 增加 的 今天 ,还 是 面临 着 偷税 漏税 、 纳 税 渠 道 不 畅 税 收 风险 控制 
等 诸多 应 用 上 面 的 难题 ,而 大 数据 将 成 为 解决 这 些 问题 的 新 思路 和 新 办 法 。 大 数据 的 解决 
指导 是 引领 智能 税务 的 出 现 ,其 本 质 是 用 大 数据 技术 找 出 数据 背后 的 规律 和 关联 关系 来 解 
决 税务 工作 中 的 难题 。 

面 对 这 些 应 用 难题 ,大 数据 从 底层 税务 数据 开始 着 手 , 经 过 对 海量 税务 数据 的 清洗 、 加 
工 、 转 换 形成 有 价值 的 税务 数据 资产 ,然后 利用 算法 模型 来 发 现 数据 的 规律 和 关联 关系 ,并 
结合 税务 工作 中 难题 的 业务 需求 ,最 终 形成 数据 应 用 来 解决 它 。 由 于 在 过 程 中 运用 了 大 量 
基于 事实 的 数据 和 先进 的 算法 模型 ,这 些 应 用 将 会 成 为 税务 工作 迈 向 智能 化 的 关键 助 推 器 。 
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2. 业务 共享 

大 数据 在 税务 行业 的 应 用 ,除了 推动 税务 智能 化 进程 外 ,对 工商 .公安 等 其 他 政府 职能 
部 门 和 广大 纳税 人 也 是 有 很 大 好 处 的 。 

除了 对 税务 部 门 的 帮助 ,在 税务 工作 中 引入 大 数据 .还 能 通过 信息 互联 、 数 据 共 享 惠 及 
如 工商 ,公安 等 其 他 政府 职能 部 门 。 当 然 纳税 人 也 能 因此 获得 更 好 的 纳税 服务 体验 。 大 数 
据 技 术 通 过 税务 数据 应 用 将 税务 部 门 .其 他 职能 部 门 ,纳税 人 连接 起 来 ,形成 联动 效应 ,以 发 
挥 税务 数据 的 最 大 能 量 。 

一 方面 通过 大 数据 税务 数据 应 用 产生 的 税源 评估 可 以 为 工商 注册 审核 ,公安 经 济 犯罪 
案件 侦破 起 到 辅助 作用 ,帮助 锁定 有 问题 企业 和 个 人 ; 另 一 方面 通过 优化 纳税 渠道 和 纳税 
流程 ,让 纳税 人 享受 到 更 便捷 的 纳税 服务 。 


9.1.3 新 机 遇 和 新 挑战 


税务 系统 的 数据 在 很 长 时 间 内 大 量 来 自 于 纳税 人 的 申报 行为 数据 和 报表 数据 ,面向 税 
务工 作 人 员 的 是 割裂 的 不 同业 务 系统 ,信息 本 身 被 业务 消解 为 固定 的 逻辑 和 处 理 形式 ,这 样 
的 工作 形式 能 够 直接 服务 于 不 经 常 变 化 的 业务 形态 ,但 看 似 简单 的 数据 口径 ,一 方面 隐藏 了 
大 量 的 数据 细节 , 另 一 方面 也 给 快速 变化 适应 带 来 了 现实 的 困难 。 

当前 的 税务 部 门 需要 适应 不 断 涌现 的 各 种 经 济 形 态 , 从 活跃 已 久 的 电子 商务 到 方 兴 未 
区 的 个 体 经 济 (Airbnb,Uber) ,都 需要 税务 工作 者 快速 响应 ,根据 数据 进行 记录 观察 和 监督 
管控 。 业 务 逻 辑 层 在 不 断 简化 变 薄 ,工作 人 员 会 发 现 大 量 需求 落实 到 对 数据 本 身 的 探求 和 
感知 ,灵活 的 数据 查询 需求 早已 不 能 够 被 僵化 割裂 的 业务 系统 满足 。 

在 架构 方面 ,数据 的 积累 在 漫长 的 信息 化 过 程 中 迎 来 了 爆发 增长 的 时 期 ,各 种 综合 治 税 
和 第 三 方 数据 进入 税务 工作 的 视野 。 传 统 基于 单机 的 处 理 架构 开始 日 益 缓 慢 和 腾 肿 ,几乎 
所 有 建立 在 数 仓 之 上 的 应 用 ,都 开始 面临 扩容 升级 的 不 菲 成 本 。 但 令 人 头痛 的 事 并 不 在 于 
增长 的 数据 ,而 在 于 数据 的 增长 速度 ,升级 后 容纳 一 个 新 的 数量 级 不 是 问题 ,但 想 要 频繁 地 
持续 地 扩容 升级 , 则 意味 着 必须 要 在 基础 架构 上 做 出 选择 。 

在 应 用 方面 ,税务 行业 在 历经 单机 查询 ,省 级 集中 征管 系统 ,数据 仓库 等 信息 化 发 展 历 
程 后 ,如 今 迎 来 更 进一步 的 数据 融合 ,数据 智能 阶段 。 数 据 成 为 最 重要 的 信息 资产 ,需要 有 
效 发 现 , 收 集 , 管 理 ` 分 析 。 从 数据 的 视角 看 ,税务 部 门 的 考察 对 象 是 税源 , 即 合法 纳税 人 的 
信息 真实 性 。 在 传统 税源 管理 工作 中 , 受 限 于 纳税 人 申报 信息 的 有 限 性 和 滞后 性 ,税务 工作 
者 无 法 准确 把 握 纳税 人 的 全 面 情况 。 得 益 于 日 趋 成 熟 的 互联 网 技术 ,一 方面 互联 网 的 很 多 
公开 权威 信息 能 够 形成 信息 的 互通 互联 相互 比 对 , 另 一 方面 基于 互联 网 迅猛 发 展 应 运 而 生 
的 大 数据 技术 服务 ,能够 提供 包括 风险 建 模 、 预 测 分 析 、 关 联 分 析 等 高 级 数据 应 用 管理 工具 。 
使 用 大 数据 技术 进行 税源 专业 化 管理 .有 利于 建立 以 税源 为 中 心 、 比 传统 业务 模型 更 加 强大 
和 全 面 的 综合 信息 视图 ,并 以 此 为 依托 进一步 搭建 包括 税源 关联 分 析 、 分 类 画像 .风险 预测 
在 内 的 一 系列 数据 应 用 。 

总 的 来 说 ,税务 机 关 在 架构 和 应 用 两 个 方面 都 遭遇 了 挑战 , 究 其 原因 还 是 由 于 新 形势 下 
对 税务 工作 提出 的 新 的 要 求 。 在 大 数据 时 代 , 税 务工 作 要 完成 从 面 到 点 、 从 粗放 到 精细 、 从 
人 管 税 到 数 管 税 的 转变 ,对 税源 实行 精细 化 管理 。 
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当前 的 税务 部 门 需要 适应 不 断 涌现 的 各 种 经 济 形 态 , 从 活跃 已 久 的 电子 商务 到 方 兴 未 
区 的 个 体 经 济 (Airbnb,Uber) ,都 需要 税务 工作 者 快速 响应 ,根据 数据 进行 记录 观察 和 监督 
管控 。 业 务 逻 辑 层 在 不 断 简化 变 薄 ,工作 人 员 会 发 现 大 量 需求 落实 到 对 数据 本 身 的 探求 和 
感知 ,灵活 的 数据 查询 需求 早已 不 能 够 被 僵化 割裂 的 业务 系统 满足 。 

在 架构 方面 ,数据 的 积累 在 漫长 的 信息 化 过 程 中 迎 来 了 爆发 增长 的 时 期 ,各 种 综合 治 税 
和 第 三 方 数据 进入 税务 工作 的 视野 。 传 统 基于 单机 的 处 理 架构 开始 日 益 缓 慢 和 腾 肿 ,几乎 
所 有 建立 在 数 仓 之 上 的 应 用 ,都 开始 面临 扩容 升级 的 不 菲 成 本 。 但 令 人 头痛 的 事 并 不 在 于 
增长 的 数据 ,而 在 于 数据 的 增长 速度 ,升级 后 容纳 一 个 新 的 数量 级 不 是 问题 ,但 想 要 频繁 地 
持续 地 扩容 升级 , 则 意味 着 必须 要 在 基础 架构 上 做 出 选择 。 

在 应 用 方面 ,税务 行业 在 历经 单机 查询 ,省 级 集中 征管 系统 ,数据 仓库 等 信息 化 发 展 历 
程 后 ,如 今 迎 来 更 进一步 的 数据 融合 ,数据 智能 阶段 。 数 据 成 为 最 重要 的 信息 资产 ,需要 有 
效 发 现 , 收 集 , 管 理 ` 分 析 。 从 数据 的 视角 看 ,税务 部 门 的 考察 对 象 是 税源 , 即 合法 纳税 人 的 
信息 真实 性 。 在 传统 税源 管理 工作 中 , 受 限 于 纳税 人 申报 信息 的 有 限 性 和 滞后 性 ,税务 工作 
者 无 法 准确 把 握 纳税 人 的 全 面 情况 。 得 益 于 日 趋 成 熟 的 互联 网 技术 ,一 方面 互联 网 的 很 多 
公开 权威 信息 能 够 形成 信息 的 互通 互联 相互 比 对 , 另 一 方面 基于 互联 网 迅猛 发 展 应 运 而 生 
的 大 数据 技术 服务 ,能够 提供 包括 风险 建 模 、 预 测 分 析 、 关 联 分 析 等 高 级 数据 应 用 管理 工具 。 
使 用 大 数据 技术 进行 税源 专业 化 管理 .有 利于 建立 以 税源 为 中 心 、 比 传统 业务 模型 更 加 强大 
和 全 面 的 综合 信息 视图 ,并 以 此 为 依托 进一步 搭建 包括 税源 关联 分 析 、 分 类 画像 .风险 预测 
在 内 的 一 系列 数据 应 用 。 

总 的 来 说 ,税务 机 关 在 架构 和 应 用 两 个 方面 都 遭遇 了 挑战 , 究 其 原因 还 是 由 于 新 形势 下 
对 税务 工作 提出 的 新 的 要 求 。 在 大 数据 时 代 , 税 务工 作 要 完成 从 面 到 点 、 从 粗放 到 精细 、 从 
人 管 税 到 数 管 税 的 转变 ,对 税源 实行 精细 化 管理 。 


12 20 


大 数 燃 : 引爆 新 的 价值 点 


9.2 大 数据 技术 的 价值 


1. 大 数据 技术 的 核心 

大 数据 技术 的 核心 是 大 数据 存储 和 处 理 技术 .数据 仓库 技术 等 ,其 战略 意义 在 于 掌握 和 
处 理 庞大 的 数据 信息 。 大 数据 应 用 的 核心 是 实时 数据 处 理 、 实 时 决策 支持 ,其 战略 意义 在 于 
快速 地 分 析出 数据 的 价值 ,让 价值 发 生 作用 ,通过 内 嵌 到 业务 流程 中 实现 数据 价值 的 体现 。 
也 就 是 说 ,大 数据 应 用 的 核心 价值 。 

2. 提升 数据 分 析 整 体 效 能 


大 数据 应 用 的 实时 处 理 、 实 时 支持 、 内 榜 流程 的 要 求 ,是 区 别传 统 数据 分 析 利 用 的 关键 
差别 之 一 。 大 数据 应 用 的 目标 ,是 支撑 所 有 税务 工作 人 员 的 实时 业务 处 理 和 日 常 管理 需求 ， 
而 并 非 仅仅 是 管理 层 的 分 析 统计 和 决策 支持 需求 。 

3. 改变 传统 的 数据 分 析 

大 数据 应 用 提供 嵌入 业务 流程 的 决策 支持 能 力 ,提升 日 常 管理 的 决策 效果 。 如 果 不 能 
从 流程 的 观点 考虑 问题 ,大 数据 应 用 可 能 只 能 提供 一 些 相互 割裂 、 为 局 部 日 标 服务 的 独立 的 
数据 分 析 应 用 ,只 能 达到 局 部 优化 的 目的 。 大 数据 应 用 可 以 是 流程 中 的 黑 盒子 ,整合 在 业务 
流程 之 中 ,无 论 有 没有 高 深 的 数学 算法 和 统计 模型 ,整个 业务 流程 都 能 够 运转 ,而 当 有 更 好 
的 ,通过 验证 的 算法 出 现 并 融入 到 流程 时 ,整个 流程 的 绩效 将 得 到 提升 。 所 以 ,大 数据 应 用 
不 应 该 仅 关注 数据 分 析 的 角度 ,而 是 支撑 整个 税收 征收 管理 的 优化 和 演进 。 

4. 研发 大 数据 应 用 


传统 的 数据 分 析 应 用 是 按照 提出 假设 发现 模型 .选择 数据 ,建立 关联 .定义 模型 的 模式 
进行 设计 。 而 大 数据 应 用 采用 的 不 是 随机 分 析 法 ( 即 抽样 调查 ) 这 样 的 捷径 ,而 采用 对 所 有 
数据 进行 分 析 的 方法 。 特 别 是 基于 电子 (网 络 ) 发 票 明细 数据 的 分 析 , 以 及 来 自 互联 网 的 业 
务 数据 的 分 析 , 对 于 整体 计算 存储 能 力 提出 了 更 高 的 要 求 。 通 过 应 用 云 计算 技术 ,可 以 整合 
税务 系统 内 部 在 地 理 上 分 散 的 计算 存储 资源 ,还 可 以 实现 按 需 从 公共 云 计算 平台 中 采购 相 
应 的 计算 能 力 ,或 根据 业务 需要 扩展 订购 、 更 换 更 加 适合 的 应 用 系统 服务 。 

5. 大 数据 应 用 的 监控 

大 数据 应 用 不 是 毕 其 功 于 一 役 的 运动 式 项 目 , 而 是 应 该 能 够 对 税务 管理 做 出 持续 的 改 
善 。 如 果 没 有 持续 的 监控 ,大 数据 应 用 所 带 来 的 改善 可 能 会 很 快 消失 ,税务 机 关 将 退回 到 项 
目 开 展 前 的 状态 。 因 此 ,大 数据 应 用 要 详细 设计 监控 的 方法 和 流程 .数据 获取 的 方式 .度量 
绩效 的 监控 指标 和 方式 ,并 且 能 够 以 绩效 仪表 盘 的 方式 将 监控 结果 以 可 视 化 的 方式 展现 给 

用 户 , 以 利于 大 数据 应 用 效果 的 可 持续 性 。 

6. 区 别 于 传统 数据 仓库 

传统 的 数据 仓库 是 数据 驱动 ,主要 关注 对 于 已 经 掌握 的 海量 数据 的 建 模 、 处 理 和 分 析 。 
大 数据 应 用 以 业务 问题 为 主要 驱动 ,从 管理 需求 出 发 ,通过 主动 寻找 新 的 数据 来 源 、 设 计 更 
好 的 人 机 交互 方式 .设计 实验 和 验证 等 方式 更 加 主动 地 搜集 数据 ,以 获取 为 支撑 决策 所 需要 
的 数据 和 证 据 。 因 此 ,大 数据 应 用 的 要 点 在 于 : 一 是 如 何 整合 不 同 来 源 的 数据 (如 企业 财务 
报表 、 税 源 管理 数据 等 ) 并 建立 关联 关系 ; 二 是 如 何 帮助 业务 人 员 方 便 灵 活 地 获取 所 需 粒度 


的 数据 进行 即席 分 析 , 以 应 对 管理 环境 变化 而 做 出 权 变 的 决策 ; 三 是 更 加 关注 于 数据 获取 
方式 模型 动态 选择 、 业 务 规则 和 业务 逻辑 的 管理 ,重点 分 析 并 掌握 纳税 人 的 “行为 指纹 ”, 以 
“沙盘 推演 ”的 方式 帮助 税务 机 关 事 前 选择 和 事 中 优化 管理 决策 行为 ; 四 是 在 为 用 户 提供 便捷 
数据 访问 的 同时 ,更 关注 于 分 析 结 果 的 权限 受 控 。 因 此 ,基于 大 数据 应 用 提升 经 验 总 结 并 形成 
对 于 税务 管理 的 洞察 力 , 并 运用 计算 机 系统 进行 自动 推理 ,是 大 数据 应 用 最 有 价值 的 内 容 


9.3 税务 精细 化 管理 顶层 设计 


税务 的 精细 化 管理 依赖 于 对 税务 数据 价值 的 利用 ,如 何 系统 地 、 高 效 地 利用 数据 需要 有 
方法 论 的 指导 ,需要 做 好 顶层 设计 ,如 图 9-2 所 示 。 


顶层 设计 





图 9-2 税务 精细 化 管理 项 层 设计 图 


通过 制定 由 数据 资产 治理 .数据 资产 运营 ,数据 资产 应 用 三 部 分 来 组 成 总 体 的 数据 资产 
管理 体系 框架 。 

通过 制定 与 数据 资产 相关 的 一 切 标准 和 处 理 流程 ,一 方面 把 控 数 据 质 量 , 一 方面 规范 处 
理 流 程 来 形成 数据 资产 治理 体系 。 

通过 数据 接 入 和 分 发 来 打通 税务 数据 和 外 部 数据 ,形成 多 层次 ,多 维度 的 税务 大 数据 共 
享 环境 。 

通过 灵活 、 敏 捷 地 运用 并 行 化 模型 算法 开发 具有 实际 业务 含义 的 大 数据 应 用 ,真正 让 数 
据 体 现 出 价值 。 

有 了 明晰 的 数据 资产 管理 体系 顶层 设计 ,还 要 配套 制定 出 切实 可 行 的 实施 步骤 ,按照 步 
又 分 阶段 建设 ,最 终 达到 基于 税务 数据 资产 利用 的 精细 化 管理 。 整 个 税务 资产 管理 总 共 分 
为 5 个 阶段 ,如 图 9-3 所 示 。 


数据 汇 数据 治 数据 运 
2 
图 9-3 税务 资产 管理 总 5 阶段 
具体 包括 基础 能 力 建设 数据 汇集 \ 数 据 治 理 、 数 据 应 用 、 数 据 运 营 。 其 中 ,基础 能 力 建 


设 是 指 通过 构建 Hadoop 集群 来 提供 数据 存储 和 数据 处 理 的 能 力 ; 数据 汇集 是 指 将 散落 在 
各 个 系统 中 的 结构 化 数据 、 半 结构 化 、 非 结构 化 数据 都 导入 到 大 数据 基础 平台 中 ; 数据 治理 
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是 对 汇集 后 的 数据 进行 清洗 和 校 验 ,提高 数据 质量 ,让 数据 变 得 真正 可 用 ; 数据 应 用 是 指 基 
于 数据 进行 各 式 各 样 的 应 用 开发 ,从 基本 的 数据 查询 到 数据 的 多 维度 统计 分 析 , 再 到 利用 算 
法 模型 进行 数据 挖掘 等 ; 数据 运营 是 指 利 用 数据 资产 进行 数据 开发 ,数据 交易 和 数据 合作 。 


9.4 大 数据 税务 应 用 整体 架构 


9.4.1 总 体 架 构 


在 整个 税务 精细 化 管理 过 程 中 ,税务 数据 应 用 是 手段 和 工具 ,同时 也 是 数据 最 终 变现 和 
发 挥 价值 的 地 方 , 是 关键 所 在 。 围 绕 税务 数据 应 用 将 整体 逻辑 架构 设计 为 如 图 9-4 所 示 。 






































9-4 ”税务 数据 应 用 整体 逻辑 架构 设计 


从 图 9-4 可 以 看 出 整个 逻辑 架构 从 最 底层 的 汇集 层 开始 , 往 上 分 别 是 数据 层 、 服 务 层 以 
及 应 用 层 , 辅 以 大 数据 安全 保障 体系 、 运 维 保障 和 标准 化 体系 。 目 的 是 涵盖 税务 数据 全 生命 
周期 的 各 个 环节 ,做 到 人 逻辑 清晰 、 层 次 分 明 .同时 满足 系统 对 安全 、 运 维 、 标 准 化 方面 的 要 求 。 

总 的 来 说 ,原始 数据 经 由 汇集 层 聚 集 到 平台 中 ,然后 通过 数据 层 转换 为 高 质量 的 数据 分 
析 挖 气 源 ,再 经 过 服务 层 提供 的 模型 算法 挖掘 能 力 , 最 终 在 应 用 层 通 过 数据 应 用 的 方式 实现 
数据 价值 的 变现 。 


9.4.2 汇集 层 


汇集 层 是 为 解决 数据 来 源 的 问题 。 按 照 内 部 数据 和 外 部 数据 的 界面 ,将 分 散在 不 同 职 
能 业务 部 门 的 业务 子 系统 中 的 业务 统计 数据 抽取 出 来 ,以 规范 的 数据 模型 组 织 并 存储 在 数 


据 平 台中 ,形成 统计 信息 数据 源 。 根 据 数据 存在 的 形式 又 可 以 将 系统 的 数据 分 为 以 下 三 类 。 
(1) 结构 化 : 传统 的 关系 数据 模型 . 行 数据 ,存储 于 数据 库 , 可 用 二 维 表 结构 表示 , 例 
如 ,核心 征管 业务 信息 数据 库 、 纳 税 登 记 信 息 数 据 库 。 
(2) 半 结 构 化 : 类 似 XML、HTML 之 类 , 自 描述 ,数据 结构 和 内 容 混 杂 在 一 起 ,例如 , 电 
子 政务 办 的 网 页 信息 、 网 站 的 配置 文件 等 。 
(3) 非 结构 化 : 各 种 文档 图片、 视频 /音频 等 ,例如 ,Word 文档 存储 的 视频 数据 、 高 清 
针对 将 标识 出 的 数据 源 以 及 数据 源 的 分 类 ,采取 不 同 的 获取 策略 ,设计 通用 的 模块 , 进 
行 数据 的 获取 。 将 数据 获取 层 获取 的 数据 ,根据 具体 的 应 用 场景 ,采用 不 同 的 导入 策略 ,将 
数据 导入 到 数据 层 。 


9.4.3 数据 层 


数据 经 由 汇集 层 存 储 到 平台 中 后 ,在 汇集 层 将 数据 汇集 到 数据 层 的 基础 之 上 进行 各 种 
加 工 , 例 如 ,数据 去 重 、 数 据 一 致 性 检查 、 数 据 标准 化 和 数据 的 格式 化 转换 。 

(1) 数据 清洗 : 数据 清洗 的 目的 就 是 按照 一 定 的 规则 统一 数据 格式 ,过 滤 脏 数据 ,保证 
后 续 过 程 的 安全 稳定 运行 。 

(2) 数据 去 重 : 数据 去 重 的 目的 就 是 将 原始 数据 中 重复 出 现 的 字段 或 数据 去 掉 , 降 低 
数据 的 元 余 度 。 

(3) 数据 融合 : 数据 融合 的 目的 就 是 按照 一 定 的 业务 规则 ,将 不 同 维度 的 原始 数据 组 
合 起 来 ,形成 新 的 有 实际 业务 含义 的 数据 集 。 

(4) 数据 关联 : 数据 关联 的 目的 就 是 按照 某 些 字段 ,将 分 散在 不 同 原始 数据 源 的 数据 
关联 起 来 ,得 到 更 完整 维度 的 数据 。 

这 些 操作 是 为 了 保证 基础 数据 的 质量 ,为 上 层 的 应 用 提供 可 靠 的 数据 支撑 。 这 一 层 中 
存放 的 数据 是 具有 核心 价值 的 数据 , 它 将 为 数据 分 析 系 统 提供 最 基础 的 数据 ,以 深入 地 挖掘 
数据 的 价值 。 数 据 层 主要 存储 数据 和 任务 相关 的 元 信息 ,以 及 数据 元 层 中 的 各 种 数据 。 

根据 不 同 的 业务 需求 在 核心 数据 之 上 可 以 构建 专题 数据 仓库 ,例如 风险 控制 数据 仓库 、 
税收 预测 数据 仓库 、 税 源 管理 数据 仓库 等 ,来 满足 专题 研究 分 析 数 据 源 的 需求 。 同 时 从 数据 
本 身 出 发 ,对 上 层 提供 数据 交互 服务 .目录 管理 服务 .统一 数据 查询 服务 .数据 关联 与 整合 服 
务 .数据 共享 服务 等 一 系列 服务 。 


9.4.4 服务 层 


服务 层 旨 在 提供 各 类 基于 数据 的 基础 服务 ,为 上 层 应 用 开发 提供 便利 。 

首先 ,服务 层 提 供 包 括 自 然 语言 处 理 、 结 构 化 数据 挖掘 、 视 频数 据 检 索 、 搜 索引 擎 .语义 
关联 检索 ,文本 分 类 等 一 系列 数据 分 析 挖 掘 技术 和 算法 ,用户 直 接 调用 即 可 完成 相应 的 数据 
分 析 ,而 不 必 自 己 面 对 复杂 的 算法 并 行 化 实现 。 

其 次 ,根据 业务 需求 ,服务 层 建 立 了 以 房地产 行业 、 公 用 事业 行业 、 公 共 交 通行 业 、 高 新 
技术 行业 为 代表 的 一 系列 行业 分 析 模 型 ,目的 是 将 常用 模型 进行 总 结 和 归纳 ,得 出 较为 通用 
的 部 分 模型 ,缩减 用 户 建 模 挖掘 的 时 间 ,为 用 户 提供 便利 。 

最 后 ,基于 数据 分 析 基 础 服务 ,服务 层 还 提供 了 诸如 推荐 系统 ,决策 支持 、 综 合 分 析 、 数 
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据 分 类 等 一 系列 典型 行业 应 用 服务 。 


9.4.5 应 用 层 


应 用 层 是 展现 给 最 终 用 户 使 用 的 ,是 整个 项 目的 数据 变现 出 口 。 首 先 构 建 了 智能 税源 
探查 平台 ,用 户 通过 登录 这 个 平台 就 能 满足 其 所 有 对 数据 的 需求 ,包含 数据 的 存储 、 查 询 ,分 
析 、 挖 据 、 展 现 等 。 

智能 税源 探查 平台 提供 预测 税收 风险 ,税源 精细 化 管理 ,税收 宏观 监控 等 数据 应 用 。 目 
的 是 通过 这 些 应 用 持续 完善 税收 征管 体系 、 优 化 纳税 渠道 、 建 立 面向 涉 税 数据 全 生命 周期 的 
监控 体系 ,探索 智能 化 的 纳税 服务 。 


9.4.6 大 数据 安全 保障 体系 


税务 数据 是 高 安全 级 别 的 敏感 数据 , 它 的 安全 至 关 重 要 。 智 能 税源 探查 平台 会 以 
Hadoop 生态 系统 为 核心 进行 建设 ,所 以 Hadoop 生态 系统 的 安全 就 决定 了 整个 平台 的 安 
全 。 我 们 需要 从 安全 需求 出 发 对 Hadoop 生态 系统 进行 全 面 的 安全 加 固 。 

Hadoop 生态 系统 是 数据 储存 和 数据 处 理 的 实体 ,由 很 多 的 组 件 构成 ,不 同 的 组 件 负责 
具体 的 功能 ,比如 HDFS 负责 数据 储存 .MapReduce 负责 数据 处 理 。 组 件 和 组 件 之 间 , 组 件 
和 外 部 系统 均 存 在 联系 ,如 图 9-5 所 示 。 





图 9-5 Hadoop 生态 系统 


可 以 看 出 整个 Hadoop 生态 系统 的 安全 是 比较 复杂 的 ,要 从 组 件 服务 和 数据 生命 周期 
两 条 主线 下 手 , 具 体 来 说 应 该 从 以 下 几 个 方面 去 考虑 。 

(1) 认证 : 需要 为 用 户 和 服务 提供 统一 的 认证 机 制 , 确 保 没 有 未 经 认证 的 第 三 方 接 人 
平台 获取 数据 和 服务 ,并 且 该 认证 机 制 要 能 和 现 有 的 用 户 管理 体系 相 结合 。 

(2) 授权 : 需要 提供 基于 角色 的 授权 机 制 ,确保 用 户 只 能 够 进行 与 其 角色 身份 相符 的 
操作 和 相应 的 集群 资源 等 。 

(3) 审计 : 需要 提供 针对 数据 变化 和 用 户 操作 的 记录 手段 ,用 以 在 发 生 问题 的 时 候 追 
湖 责 任 、 分 析 原因 以 及 预警 。 

(4) 数据 加 密 : 需要 提供 合适 的 数据 加 密 方法 ,对 存储 的 静态 数据 和 传输 的 动态 数据 
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进行 加 密 保护 。 
(5) 数据 传输 : 需要 提供 数据 在 Hadoop 平台 和 外 部 系统 间 流 动 时 的 安全 机 制 ,保证 数 
据 在 传输 过 程 中 不 发 生 泄露 ,保证 Hadoop 平台 一 定 的 独立 性 ,防止 胜 数据 流入 。 


9.4.7 运 维 保障 


智能 税源 探查 平台 的 运 维 主要 分 为 软件 平台 运 维 、 数 据 资产 运 维 、 数 据 安全 运 维 。 

其 中 ,软件 平台 的 运 维 着 重 在 对 各 系统 规范 化 要 求 ,常用 软件 的 安装 和 部 署 ,版 本 控制 、 
权限 控制 .备份 控制 .数据 控制 .实时 监控 报警 等 方面 发 挥 作用 。 

数据 资产 运 维 着 重 在 数据 生命 周期 管理 ,任务 调度 管理 .数据 质量 管理 等 方面 发 挥 
作用 。 

数据 安全 运 维基 于 平台 产生 的 各 类 日 志文 件 ,通过 日 志 收 集 、 异 常规 则 、 异 常 发 现 、 规 则 
训练 .异常 预警 等 步骤 在 数据 安全 方面 发 挥 作 用 。 


9.4.8 标准 化 体系 


标准 化 体系 建设 是 为 将 来 与 各 个 共 建 单位 进行 对 接 而 准备 的 ,需要 在 平台 建设 的 同时 
就 考虑 到 各 类 数据 和 应 用 的 调用 接口 ,实现 接口 的 标准 化 和 通用 化 ,在 平台 对 接 过 程 中 做 到 
平滑 ,无 缝 。 

具体 做 法 就 是 在 接口 开发 过 程 中 ,尽量 采用 业界 通用 的 协议 或 者 标准 ,如 RESTFUL 
APIJDBC 连接 FTP 文件 传输 协议 等 。 如 果 有 特殊 情况 ,需要 开发 个 性 化 的 接口 , 则 要 提 
供 完备 的 对 接 支持 ,包含 文档 和 技术 支持 两 方面 。 


9.5 大 数据 税务 数据 应 用 场景 


大 数据 技术 在 税务 领域 发 挥 作用 ,需要 和 税务 工作 人 员 进 行 密切 沟通 ,从 中 梳理 出 税务 
工作 中 的 痛 点 ,分 析 其 中 的 关键 问题 。 然 后 根据 已 知 内 外 部 数据 的 情况 ,寻找 合适 的 算法 模 
型 来 建 模 , 最 终 提 出 解决 方案 。 

税务 数据 应 用 总 体 架 构 中 最 上 层 列举 了 预测 风险 ,税源 管 理 、 宏 观 监控 三 个 大 方面 的 应 
用 场景 ,我 们 将 税务 数据 应 用 场景 进行 了 细 分 .归纳 起 来 有 以 下 5 个 部 分 的 内 容 。 

一 是 需要 针对 纳税 渠道 进行 资源 的 差异 化 配置 和 补给 ,用 以 提升 优质 纳税 渠道 的 顺畅 
度 , 使 得 纳税 人 更 加 便捷 ,提高 办 税 效率 ; 二 是 需要 发 现 企 业 间 潜 在 的 社会 经 营 关系 ,用 以 
检测 两 者 问 的 生产 经 营 关系 是 否 存在 问题 ; 三 是 需要 结合 外 部 数据 对 深层 次 的 偷税 漏税 问 
题 进 行 跟踪 和 追缴 ; 四 是 需要 思考 大 数据 在 税务 领域 的 创新 型 应 用 ; 五 是 需要 了 解 纳税 人 
全 方位 的 信息 ,用 以 制定 差异 化 的 管理 措施 ,对 税源 实现 精细 化 管理 。 

税务 数据 应 用 的 重点 落 在 第 4 部 分 即 大 数据 在 税务 领域 的 创新 型 应 用 即 涉 税 事件 追踪 
分 析 上 。 下 面 就 每 个 具体 的 应 用 场景 从 场景 描述 和 解决 方案 两 个 方面 来 进行 详细 叙述 。 


9.5.1 优化 纳税 服务 


1. 场景 描述 
针对 不 同 的 纳税 渠道 每 年 都 会 有 资源 投入 来 进行 维护 和 拓展 ,但 是 由 于 无 法 区 别 出 纳 
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税 渠道 的 优 劣 ,在 资源 分 配 时 只 能 采用 均 摊 的 方式 ,导致 优质 渠道 得 不 到 足够 的 资源 ,服务 
体验 不 好 的 渠道 浪费 资源 ,从 而 使 得 纳税 人 的 纳税 体验 无 法 得 到 提高 。 

针对 上 述 场 景 ,我 们 认为 可 以 通过 对 数据 的 分 析 得 出 各 个 办 税 渠道 的 用 户 量 和 顺畅 度 
情况 ,以 此 来 指导 国税 局 对 办 税 资源 的 差异 化 配置 ,提高 办 税 资源 的 利用 率 。 

2. 解决 方案 

各 个 纳税 渠道 的 优 劣 可 以 通过 打分 的 方式 来 评定 ,我 们 使 用 加 权 平 均 算法 来 完成 这 项 
工作 。 该 算法 的 思想 是 挑选 出 评分 目标 的 关键 属性 值 , 然 后 为 不 同 的 属性 值 赋予 不 同 的 权 
值 ,最 后 将 所 有 属性 值 乘 以 权 值 并 进行 求 和 ,运算 结果 就 是 评分 目标 的 最 终 得 分 。 

我 们 首先 梳理 出 与 纳税 渠道 属性 相关 的 数据 源 ,如 国税 局 目前 所 有 的 办 税 渠 道 .纳税 人 
网 页 上 的 行为 数据 、 纳 税 人 的 网 络 评价 、 纳 税 人 常用 的 纳税 渠道 纳税 的 频率 、 是 否 有 欠 税 情 
况 ,缴纳 时 间 离 税 款 所属 期 开始 时 间 最 近 的 次 数 、 提 前 缴纳 税 款 的 次 数 等 。 

然后 从 上 述 数据 中 经 过 转换 和 计算 得 出 纳税 渠道 关键 的 5 个 属性 值 , 一 是 统计 国税 局 
某 一 时 间 段 内 所 有 办 税 渠道 的 纳税 次 数 ; 二 是 搜集 纳税 人 对 各 个 办 税 渠 道 的 评价 ,转换 为 
从 1 到 5 的 评分 ; 三 是 统计 各 个 办 税 渠道 缴纳 时 间 离 税 款 所 属 期 开始 时 间 小 于 5 天 的 纳税 
次 数 ; 四 是 统计 各 个 办 税 渠道 税 款 欠 缴 的 次 数 ; 五 是 统计 各 个 渠道 纳税 人 从 申报 开始 到 最 
终 拿 到 完税 证 明 的 时 间 。 

设 X11、Xs、X3、Xs、Xs 代表 5 个 关键 属性 值 ,相应 的 权 值 为 Wi、Ws、Ws、W4、Ws ,那么 
根据 如 下 公式 : 

3 TT 十 Ww2X2 a + Wri 
3 wi 二 wa 二 二 vo 
计算 出 各 个 纳税 渠道 的 最 终 得 分 ,因为 在 数学 中 加 权 平 均 数 比 起 简单 的 算术 平均 数 更 能 反 
映 评 分 目标 在 某 一 方面 的 变现 ,所 以 依据 最 终结 果 由 高 到 低 来 为 各 个 办 税 渠 道 差异 化 地 配 
置 资源 是 科学 可 行 的 。 
3. 思维 导 图 
将 上 述 解 决 方案 以 图 形 化 的 方式 展现 出 来 便 得 到 如 图 9-6 所 示 的 图 形 。 
加 :所 有 办 税 渠道 各 自 的 办 税 次 数 总 和 

















站: 纳税 人 对 各 个 办 税 渠道 的 评价 转换 值 
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汶 : 各 个 办 税 渠道 缴纳 时 间 离 税 款 所 属 期 开始 时 间 
小 于 5 天 的 纳税 次 数 
















蕊 : 各 个 办 税 渠道 税 款 欠 缴 的 次 数 





XX : 各 个 渠道 纳税 人 从 申报 开始 到 
最 终 拿 到 完税 证 明 的 时 间 


图 9-6 优化 纳税 服务 思维 导 图 


9.5.2 社会 经 营 关系 


1. 场景 描述 

在 进行 税源 管理 时 ,仅仅 能 从 交易 往来 发 票 中 得 出 一 些 企 业 间 的 生产 经 营 关系 ,但 
法 判断 这 些 关 系 的 真实 性 和 信息 量 。 企 业 间 会 通过 各 种 手段 来 隐瞒 彼此 之 间 的 真实 经 
来 情况 ,导致 虚 开 、 走 票 、 少 开 等 违规 违法 现象 的 出 现 ,造成 税收 收入 的 损失 。 

针对 上 述 场景 ,我 们 认为 通过 搜集 和 分 析 企 业 间 的 社会 关系 能 判断 出 企业 间 的 生产 经 
营 关系 是 否 如 其 在 国税 业务 系统 中 的 数据 所 反映 的 那样 ,从 而 避免 由 于 虚假 生产 经 营 关系 
造成 的 损失 。 除 此 之 外 ,企业 间 的 社会 关系 还 能 对 纳税 稽查 、 税 源 审核 等 工作 有 所 帮助 ,在 
税源 管理 中 扮演 着 十 分 重要 的 角色 。 

2. 解决 方案 

企业 间 的 社会 关系 可 以 通过 分 析 企 业 管 理 人 员 和 高 级 员工 间 的 关联 关系 得 出 ,因为 企 
业 和 企业 间 的 生产 经 营 往 来 ,必然 会 带 来 人 员 的 交流 沟通 ,尤其 在 管理 人 员 和 高 级 员工 之 
间 , 而 且 这 两 者 之 间 是 明显 的 线性 正 相关 。 通 过 比较 企业 的 社会 关系 和 生产 经 营 关系 ,很 快 
就 能 发 现 问题 。 

我 们 首先 要 搜集 目标 企业 的 注册 信息 、 企 业 的 法 人 信息 、 合 伙 人 信息 \ 股 权 结 构 信息 等 ， 
从 中 识别 出 企业 的 管理 人 员 和 高 层 员 工 。 但 是 仅 识别 出 来 依然 无 法 判断 企业 间 的 社会 关 
系 。 这 里 还 需要 引入 外 部 数据 ,具体 来 说 就 是 互联 网 数据 和 公安 数据 ,互联 网 数据 由 互联 网 
息 虫 程序 搜集 ,公安 数据 由 相关 合作 方 提供 。 

互联 网 数据 是 以 企业 管理 人 员 和 高 层 员工 的 名 字 和 公司 名 称 为 关键 字 疏 取 的 , 疏 取 回 
来 的 网 页 内 容 涉及 流 媒体 数据 .新 闻 数 据 ` 社 交 数 据 等 ,通过 对 网 页 内 容 的 分 析 就 能 大 致 得 
出 这 些 人 之 间 是 否 来 往 密切 。 而 公安 数据 起 到 的 作用 是 最 大 的 ,我 们 以 相关 人 员 名 字 和 身 
份 证 号 来 匹配 他 们 是 否 籍贯 一 臻 .是否 居 住地 邻近 .是否 频繁 通话 .是否 乘 坐 过 同一 班次 的 
火车 或 飞机 、 是 否 在 同一 时 间 入 住 过 同一 家 酒店 等 。 

为 互联 网 数据 和 公安 数据 的 每 一 项 设置 是 或 者 否 两 个 值 .如 果 企 业 间 两 个 相关 人 员 在 
所 有 数据 选项 中 超过 60% 都 为 是 ,那么 就 判定 两 人 存在 密切 的 社会 关系 。 接 着 对 筛选 出 来 
的 所 有 人 员 进 行 一 一 匹配 ,形成 一 个 NXN 的 矩阵 。 和 矩阵 中 的 元 素 就 是 相关 两 人 的 社会 关 
系 , 如 果 密 切 则 标注 为 1, 反 之 则 为 0。 然后 对 矩阵 中 所 有 的 元 素 进 行 求 和 , 求 和 的 结果 如 果 
大 于 和 抢 阵 元 素 个 数 的 60%, 则 判定 两 家 企业 间 存 在 密切 的 社会 关系 ,反之 则 不 存在 。 最 后 
将 结果 与 企业 间 的 生产 经 营 关 系 进行 匹配 ,以 发 现 问题 。 

3. 思维 导 图 

将 上 述 解 决 方案 以 图 形 化 的 方式 展现 出 来 便 得 到 如 图 9-7 所 示 的 图 形 。 
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图 9-7 社会 关系 思维 导 图 


9.5.3 偷税 漏税 


1. 场景 描述 

偷税 漏税 一 直 是 税务 机 关 无 法 很 好 解决 的 问题 ,每 年 都 会 造成 巨大 的 经 济 损失 ,损失 一 
方面 来 自 欠 缴 的 税 款 ,一 方面 是 追缴 税 款 所 花费 的 人 力 成 本 和 时 间 成 本 。 企 业 偷税 漏税 现 
象 的 屡禁不止 存在 着 主观 意愿 和 客观 条 件 两 个 因素 。 

其 中 ,主观 意愿 是 企业 追求 高 利润 的 目的 和 侥幸 的 心理 ,在 不 少 企 业 决策 者 眼 里 ,纳税 
是 一 笔 损 失 而 不 是 每 个 公民 的 义务 。 他 们 更 倾向 于 隐匿 收入 夸大 成 本 ,而 达到 不 缴 税 和 少 
缴 税 的 目的 。 同 时 对 于 国家 的 法 律 惩罚 ,部 分 企业 决策 者 对 于 偷 漏税 行为 存在 侥幸 心理 ,在 
不 完善 的 税收 征管 体系 下 ,进行 偷税 的 行为 。 

而 客观 条 件 是 我 国 的 税收 管理 体系 存在 漏洞 ,特别 是 在 税 款 申报 和 税 款 核查 环节 。 由 
于 税务 机 关 征 收 税 款 的 直接 依据 是 企业 的 账本 ,账本 记录 着 企业 的 日 常 经 济 活动 ,但 是 现实 
生活 中 ,企业 能 够 通过 多 种 手段 来 瞒 报 收入 和 经 营 状 况 , 从 而 引发 偷税 和 漏税 问题 。 

针对 上 述 场景 ,我 们 认为 应 该 引入 互联 网 数据 .股票 数据 .银联 刷卡 数据 等 外 部 数据 来 
对 企业 的 生产 经 营 和 收入 情况 进行 大 致 的 预 估 , 同 时 将 企业 历史 同期 值 和 行业 平均 值 也 纳 
人 考虑 范围 ,将 上 述 估 值 和 申报 值 进行 比较 ,最 终 确 定 是 否 存在 偷税 漏税 。 

2. 解决 方案 

判断 企业 是 否 存在 偷税 漏税 情况 的 关键 所 在 是 尽 可 能 地 摸 清 企业 真实 的 生产 经 营 状 况 
和 收入 情况 ,然后 将 企业 申报 信息 和 分 析 结 果 进 行 对 比 。 对 比 时 要 设 定好 一 个 阅 值 ,如 果 两 
者 的 差异 超过 这 个 阔 值 就 视 为 企业 存在 偷税 漏税 。 所 以 阔 值 的 设置 比较 关键 ,初期 可 以 凭 
借 经 验 , 但 是 后 期 必须 采用 前 期 的 反馈 数据 进行 调整 。 

具体 操作 上 ,除了 企业 提供 的 财务 信息 ,还 需要 搜集 和 分 析 企 业 的 申报 数据 、 企 业 的 历 
史 纳 税 信息 、 企 业 的 股票 数据 、 同 行业 的 纳税 数据 .银联 商务 的 刷卡 数据 以 及 互联 网 数据 。 
首先 采用 逮 辑 回归 算法 对 企业 的 历史 纳税 数据 进行 处 理 , 通 过 在 给 定点 集 ( 各 个 时 期 的 纳税 
金额 ) 中 拟 合 出 一 条 曲线 来 预测 企业 未 来 的 纳税 金额 。 然 后 对 该 企业 所 在 行业 中 所 有 与 其 
规模 相当 企业 的 纳税 额 做 一 个 算术 平均 得 到 该 行业 的 平均 纳税 金额 。 接 着 如 果 在 银联 商务 
的 刷卡 数据 中 匹配 到 了 该 企业 的 数据 ,还 需要 根据 刷卡 产生 的 金额 来 折算 出 大 致 的 营业 额 
并 按照 税率 换算 成 应 纳税 额 。 最 后 综合 股票 数据 和 以 企业 名 称 、. 产 品 为 关键 字 疏 取 来 的 互 
联网 数据 对 该 企业 目前 的 大 致 生产 经 营 状况 做 出 评估 。 

经 过 上 述 步 又 得 到 了 纳税 额 预 测 值 x 、 同 行业 纳税 额 平均 值 x; ` 纳 税额 折算 值 zs 以 及 
生产 经 营 状况 评分 值 x ,这 里 还 是 用 加 权 平 均 的 算法 对 这 4 个 变量 求 加 权 平 均值 ,然后 用 
这 个 值 除 以 企业 的 申报 纳税 金额 xz。 计算 过 程 如 下 所 示 : 


ZIXw 十 ZXmw 十 zaXos 十 ziXow . 呈 
ol 十 oa 十 os 十 wa 


如 果 a 二 80% ,就 代表 企业 申报 额 和 估算 值 的 相似 度 小 于 80% ,那么 就 可 能 存在 偷税 漏 
税 的 现象 ,需要 进一步 采取 行政 手段 进行 调查 。80% 就 是 前 文 提 到 的 阅 值 ,需要 在 实践 中 不 
断 地 进行 修正 。 

3. 思维 导 图 

将 上 述 解决 方案 以 图 形 化 的 方式 展现 出 来 便 得 到 如 图 9-8 所 示 的 图 形 。 
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图 9-8 偷税 漏税 思维 导 图 


9.5.4 涉 税 事件 追踪 


1. 场景 描述 

前 文 说 到 税务 经 过 多 年 的 信息 化 建设 积累 了 大 量 的 业务 数据 ,但 是 这 些 业 务 数 据 是 分 
散 的 静止 的 ,税务 人 员 理 解 不 了 也 利用 不 了 。 造 成 这 种 现象 的 根本 原因 是 数据 对 于 税务 工 
作 人 员 来 讲 是 抽象 的 ,只 是 一 堆 数 字 而 已 ,无 法 与 其 日 常 工作 联系 到 一 起 。 

从 本 质 上 讲 数据 是 存储 在 计算 机 磁盘 上 的 一 串 二 进 制 数 ,无 法 被 人 读 取 ,在 数据 库 软 件 系 
统 的 帮助 下 ,二进制 数 变 成 了 一 条 条 可 读 的 数据 记录 。 但 是 数据 记录 对 于 税务 业务 人 员 来 说 
还 是 陌生 的 ,因为 税务 业务 人 员 熟 悉 的 是 税收 的 业务 流程 ,而 不 是 数据 库 里 面 干 首 的 数据 记录 。 

于 是 数据 仓库 诞生 了 。 数 据 仓库 将 数据 按照 具有 业务 意义 的 主题 组 织 起 来 ,并 依据 特 
定 的 业务 需求 对 其 进行 加 工 , 最 终 以 图 标的 形式 将 结果 展示 出 来 。 到 这 一 步 , 数 据 已 经 变 成 
了 有 业务 含义 的 图 表 , 税 务 管理 人 员 能 够 较 好 地 理解 和 应 用 。 不 过 因为 图 表 是 统计 结果 , 反 
映 的 是 整个 过 程 和 全 局 的 情况 ,所 以 对 于 一 线 的 税务 工作 人 员 的 意义 不 大 。 

针对 上 述 场景 ,我们 认为 将 税务 业务 系统 中 的 数据 还 原 为 业务 流程 上 的 真实 涉 税 事件 
是 帮助 税务 工作 人 员 理 解 和 利用 税务 数据 的 关键 。 在 税务 业务 系统 中 除了 代码 表 外 的 每 一 
张 表 中 的 每 一 条 数据 背后 都 是 一 个 涉 税 事件 ,比如 申报 表 中 的 数据 代表 一 次 申报 行为 ,纳税 
人 登记 表 中 的 数据 代表 一 次 新 登记 或 者 是 信息 变更 。 

我 们 将 数据 还 原 为 事件 后 ,还 应 该 进一步 对 其 进行 追踪 和 分 析 , 找 出 涉 税 事件 间 的 关联 
关系 ,用 以 辅助 对 过 去 涉 税 事件 的 纠 错 和 对 未 来 涉 税 事件 的 预测 。 

2. 解决 方案 


帮助 税务 人 员 理 解 和 利用 税务 数据 的 关键 是 涉 税 事件 的 追踪 分 析 , 其 基础 是 税务 数据 
到 涉 税 事件 的 还 原 过 程 , 这 需要 从 税务 核心 征管 系统 以 及 其 他 各 个 业务 系统 数据 中 根据 同 
一 个 字段 (如 纳税 人 登记 证 号 ) 进 行 关联 ,然后 按照 记录 产生 的 时 间 顺 序 和 记录 的 来 源 方式 
形成 纳税 人 涉 税 事 件 事实 表 。 在 展现 形式 上 采用 时 间 卷 轴 的 方式 。 

时 间 卷 轴 上 的 每 一 个 亮 块 就 代表 一 个 涉 税 事件 ,税务 人 员 能 够 一 目 了 然 地 看 到 某 一 税 
源 在 选 定时 间 范 围 内 的 所 有 涉 税 事件 ,并 通过 单 击 亮 块 来 查看 该 涉 税 事件 的 详细 情况 。 

对 涉 税 事件 的 还 原 和 查看 只 是 第 一 步 , 接 下 来 还 要 将 在 业务 流程 上 有 关联 的 事件 标记 和 
关联 出 来 ,用 来 对 税务 流程 中 的 各 个 环节 进行 辅助 和 提醒 。 例 如 , 某 一 税源 发 生 了 申报 事件 ， 
那么 接 下 来 一 段 时 间 内 应 该 发 生 缴 纳税 款 事件 :如 没有 找到 该 事件 就 推送 相关 人 员 知 晓 。 

对 涉 税 事件 的 关联 不 应 该 只 局 限于 税务 业务 系统 内 部 ,还 要 借助 外 部 数据 如 互联 网 数 
据 ` 公 安 数据 以 及 银联 商务 刷卡 数据 的 力量 ,分 析 挖 掘 出 更 多 的 信息 。 目 的 是 做 到 对 已 经 发 
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生 涉 税 事件 的 合 规 性 校 验 以 及 对 未 来 将 要 发 生 的 涉 税 事件 的 预测 。 

具体 做 法 是 首先 根据 涉 税 事件 的 人 员 信 息 和 时 间 信 息 去 互联 网 公安 、 银 联 商务 数据 中 
匹配 同一 人 同一 时 间 范 围 内 的 事件 ,然后 将 匹配 到 的 事件 作为 一 个 集合 ,接着 对 集合 中 的 元 
素 ( 各 个 事件 ) 的 描述 进行 精简 ,只 保留 谁 、 什 么 时 间 、 什 么 地 点 、 什 么 动作 4 个 要 素 。 同 时 要 
根据 这 4 个 元 素 准备 一 个 规则 引擎 ,定义 事件 与 事件 之 间 关 系 的 判断 标准 。 

通过 规则 引擎 判断 出 目标 事件 和 事件 之 间 在 逻辑 上 是 顺 承 的 还 是 违背 的 , 顺 承 的 关系 
可 以 用 来 对 未 来 涉 税 事件 进行 预测 ,违背 的 关系 可 以 用 来 对 已 发 生 涉 税 事件 的 合 规 性 校 验 。 
规则 引擎 的 更 新 由 人 工 智能 算法 来 完成 ,当然 同时 还 需要 设计 一 个 人 为 干预 的 反馈 机 制 ,用 
以 对 规则 引擎 进行 修正 。 

当 集 合 中 的 元 素 都 经 过 规则 引擎 第 选 比 对 后 ,将 结果 通过 时 间 卷 轴 反 映 给 税务 工作 人 
员 。 以 红色 亮 块 表示 过 去 的 违规 事件 , 蓝 色 亮 块 表示 未 来 的 涉 税 事件 。 

3. 思维 导 图 

将 上 述 解 决 方案 以 图 形 化 的 方式 展现 出 来 便 得 到 如 图 9-9 所 示 的 图 形 。 
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图 9-9 对 涉 税 事件 的 追踪 分 析 


9.5.5 税源 画像 


1. 场景 描述 

税源 管理 一 直 是 税收 工作 中 的 重点 ,管理 好 税源 有 利于 税 款 征收 ` 风 险 控制 等 工作 。 当 
前 税源 管理 采取 的 是 粗放 式 做 法 ,在 政策 制定 和 执行 上 通常 是 以 大 范围 为 粒度 的 ,缺乏 差异 
性 和 针对 性 ,导致 效果 不 好 。 

另 一 方面 ,互联 网 企业 尤其 是 电 商 行业 在 用 户 管理 方面 依托 差异 化 ` 个 性 化 的 管理 策 
略 ,在 产品 设计 、 商 品 营 销 、 活 动 策划 等 方面 取得 了 很 好 的 效果 ,为 其 带 来 了 丰厚 的 收入 。 从 


他 们 的 经 验 来 看 ,精细 化 管理 才 是 大 数据 时 代用 户 管理 的 正确 方式 。 

举例 来 说 ,精细 化 管理 能 够 对 不 同 的 用 户 进行 不 同 商品 的 推荐 ,采取 不 同 的 优惠 措施 ， 
以 此 来 提高 用 户 的 下 单 率 和 成 交 率 。 税 务工 作 同 样 如 此 ,只 有 实现 精细 化 管理 ,才能 让 税收 
工作 更 上 一 个 台阶 。 而 税源 精细 化 的 前 提 是 弄 清 楚 每 个 税源 的 特点 ,然后 才能 根据 税源 特 
点 制定 差异 化 的 管理 措施 。 

针对 上 述 场景 ,我 们 认为 对 纳税 人 进行 画像 是 摸 清 税源 特征 的 最 佳 办 法 ,从 内 外 部 数据 
人 和 手 为 税源 打上 各 类 个 性 化 标签 ,从 而 将 税源 划分 为 不 同 的 群体 分 开 进行 管理 。 

2. 解决 方案 

税源 画像 本 质 上 是 从 与 税源 相关 的 所 有 数据 中 找 出 税源 在 各 个 方面 的 特征 ,通过 这 些 
来 为 税源 打上 相应 的 标签 。 一 个 税源 至 少 拥 有 一 个 标签 ,多 个 税源 可 能 会 拥有 同一 种 标签 ， 
这 就 为 我 们 在 税源 管理 政策 制定 和 执行 时 提供 了 依据 ,能 够 充分 考虑 税源 的 个 性 化 情况 去 
实施 ,取得 的 效果 当然 也 会 更 好 。 

为 此 首先 要 搜集 大 量 的 数据 ,比如 国税 业务 系统 中 税源 的 所 有 涉 税 数据 、 税 源 公安 数 
据 、 税 源 银联 商务 数据 、 税 源 互 联网 数据 。 其 中 ,国税 业务 系统 中 的 数据 用 来 分 析 税 源 的 纳 
税 习惯 标签 ,其 余 的 外 部 数据 则 用 来 分 析 税 源 的 生产 经 营 状况 、 经 营 范围 .目标 人 群 等 信息 。 

数据 搜集 完成 后 ,第 一 步 对 国税 业务 系统 中 的 涉 税 数据 进行 分 析 ,统计 分 析出 纳税 人 的 
常规 缴 税 时 间 、 缴 税 渠 道 , 缴 税 地 点 、 缴 税金 额 等 指标 ,组 成 纳税 人 的 缴 税 习惯 标签 。 第 二 步 
综合 所 有 的 外 部 数据 统计 得 出 纳税 人 的 各 项 标签 ,如 企业 法 人 信息 、 注 册 地 址 ,经营 地址 、 贷 
款 情 况 .营业 额 、. 纳 税 信用 风险 评级 ,资金 往来 频率 .增值 税 缴纳 情况 .目标 人 和 群 等 。 

最 后 通过 文本 解析 和 规则 引擎 ,分析 税源 的 缴 税 习惯 标签 和 其 他 各 项 标签 ,辅助 制定 出 
对 纳税 人 的 精细 化 管理 策略 ,用 以 提高 税源 管理 水 平 。 

3. 思维 导 图 

将 上 述 解决 方案 以 图 形 化 的 方式 展现 出 来 便 得 到 如 图 9-10 所 示 的 图 形 。 
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图 9-10 税源 画像 思维 导 图 


9.5.6 纳税 遵从 指数 


1. 场景 描述 
江苏 全 省 地 税 系统 以 风险 管理 为 导向 的 税源 专业 化 管理 模式 基本 到 位 ,形成 了 风险 管 
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理 计 划 、 风 险 指标 模型 建设 、 风 险 识别 、 风 险 推 送 、 风 险 应 对 、 风 险 应 对 绩效 评价 的 基本 管理 
流程 ,能 基本 支撑 起 新 的 税源 管理 模式 。 但 从 风险 应 对 结果 、 纳 税 人 履行 征管 制度 情况 等 角 
度 监 控 评 价 纳税 人 税法 遵从 方面 还 存在 缺陷 ,有 必要 通过 对 纳税 遵从 情况 的 监控 评价 来 促 
进 税收 管理 “ 征 \ 评 , 管 . 查 ” 各 环节 ,提高 整个 税源 专业 化 管理 模式 运行 成 效 。 

2. 解决 方案 

运用 纳税 遵从 监控 评价 指标 体系 ,利用 主题 税源 平台 提供 数据 ,加 工 形成 纳税 遵从 监控 
评价 数据 ,分 行业 类 型 .税种 税目 .风险 事项 对 不 同 的 地 区 、 各 个 征管 环节 进行 纳税 遵从 监控 
评价 ,输出 分 类 汇总 表单 ,提供 分 类 遵从 度 评价 排序 ,批量 和 单 户 纳税 遵从 查询 ,出 具 纳税 遵 
从 监控 评价 智能 报告 。 

纳税 遵从 监控 评价 管理 包括 如 图 9-11 所 示 4 个 部 分 。 


纳税 遵从 监控 评价 管理 
[一 一 一 
评价 指标 遵从 分 析 纳税 遵从 EE 
管理 评价 展示 系统 维 扩 


图 9-11 纳税 遵从 监控 评价 


(1) 评价 指标 管理 。 对 纳税 遵从 评价 指标 进行 管理 ,建立 评价 指标 分 类 ,并 按照 分 类 归 
集 各 类 评价 指标 ,实现 评价 的 动态 配置 。 

(2) 遵从 分 析 评价 。 对 已 经 配置 完成 的 评价 指标 ,运用 主题 税源 平台 数据 对 纳税 人 进 
行 纳税 遵从 评价 分 析 ,输出 纳税 遵从 结果 ,并 依据 规则 实现 纳税 遵从 值 的 计算 , 按 户 归 集 纳 
税 遵 从 值 。 建 立 遵从 分 析 评 价 的 模板 ,以 此 判定 纳税 人 的 纳税 遵从 评价 度 。 

(3) 纳税 遵从 展示 。 按 照 不 同 分 类 组 合 展示 一 类 、 一 个 地 区 的 纳税 遵从 情况 ,按照 不 同 
需求 查询 纳税 人 纳税 遵从 情况 ,并 实现 按 户 纳税 遵从 情况 查询 。 对 一 个 类 别 纳税 人 实现 动 
态 纳税 遵从 报告 的 出 具 , 对 单一 纳税 人 出 具 纳 税 遵从 报告 。 

(4) 系统 维护 。 用 于 配置 系统 功能 。 

根据 已 经 制定 的 纳税 遵从 度 评 价 指标 体系 梳理 出 来 的 思维 导 图 如 图 9-12 所 示 。 
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图 9-12 纳税 遵从 度 评价 思维 导 图 


可 以 看 出 ,整个 评价 指标 系统 由 风险 管理 类 、 行 政 处 罚 类 、 信 用 等 级 类 数据 质量 类 、 征 
管 质量 类 5 个 大 类 组 成 ,每 个 大 类 细 分 为 若干 小 类 ,各 个 小 类 又 细 化 到 具体 的 指标 ,每 个 指 
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标 有 自己 的 评分 规则 和 权重 ,通过 得 分 和 权重 相 乘 并 累加 的 方式 能 得 到 各 个 小 类 的 得 分 ,再 
层 层 汇总 ,最 终 就 能 得 到 目标 的 纳税 遵从 指数 。 


9.6 税务 大 数据 服务 价值 


明 略 数据 为 税务 部 门 构建 的 可 视 化 涉 税 分 析 平 台 定位 为 面向 税务 部 门 的 数据 服务 产 
品 。 产 品 充分 利用 明 略 底层 大 数据 平台 相关 技术 ,数据 挖 气 建 模 技术 及 明 略 税务 行业 研究 
专家 对 税源 管理 专业 化 、 风 险 控制 精细 化 ,决策 分 析 智 能 化 的 理解 ,搭建 以 分 析 预 测 为 核心 
的 数据 应 用 平台 ,以 帮助 税务 部 门 征管 工作 更 有 效 、 更 全 面 、 更 精细 化 地 展开 。 

可 视 化 涉 税 分 析 平 台 能 够 对 政府 “信息 管 税 " 带 来 以 下 影响 。 

1. 成 本 更 加 可 控 , 更 丰富 的 数据 视角 ,更 敏捷 的 分 析 构 建 

大 数据 的 技术 核心 在 于 可 扩展 性 。 对 用 户 来 说 ,可 扩展 性 意味 着 以 成 本 可 控 的 方式 逐 
步 进 行 信息 化 建设 ,相对 于 传统 的 单机 数据 仓库 构建 ,基于 大 数据 平台 能 够 以 更 低 成 本 获得 
数 十 倍 的 数据 处 理 能 力 提 升 , 堪 称 技术 架构 上 的 飞跃 。 

传统 的 一 户 式 视图 能 够 对 单 户 纳税 户 的 所 有 涉 税 电子 档案 信息 形成 查询 ,但 是 数据 的 
类 型 丰富 程度 和 数据 之 间 关联 度 都 还 比较 缺乏 。 可 视 化 涉 税 分 析 平 台 不 仅 以 税源 为 中 心 组 
织 数据 ,还 能 够 大 量 引 入 外 部 各 种 关系 型 和 非 关 系 型 数据 ,在 更 大 的 尺度 上 进行 模型 构建 ， 
充分 建立 数据 关联 ,通过 手动 大 数据 的 杠杆 轻松 切换 观察 视角 ,敏捷 构建 业务 场景 和 报表 ， 
从 数据 资产 到 分 析 展 示 不 再 经 历 传统 元 长 的 数 仓 过 程 。 

2. 获得 数据 之 外 的 洞察 

发 挥 数据 的 价值 ,挖掘 数据 背后 的 相关 性 ,才能 为 业务 决策 带 来 最 大 效益 的 帮助 。 明 略 
可 视 化 涉 税 分 析 平 台 能 够 通过 分 类 、 聚 类 、 回 归 等 多 项 算法 ,发 现 数据 相关 性 ,清晰 洞察 业务 
关联 信息 ,更 精确 地 预测 走 逃 税 风险 。 得 益 于 大 数据 技术 带 来 的 性 能 飞跃 ,这 些 在 传统 架构 
中 复杂 耗 时 的 数据 训练 和 建 模 运行 周期 从 数 月 能 够 缩短 到 数 天 甚至 数 小 时 。 在 数据 时 代 ， 
掌握 数据 运用 的 方法 论 将 成 为 每 一 个 数据 拥有 者 的 首要 任务 。 

3. 打造 拥有 大 数据 能 力 的 数据 服务 层 ,为 进一步 数据 应 用 打下 基础 

所 有 的 大 数据 项 目 都 不 仅 是 提供 一 个 产品 或 者 完成 一 个 项 目 , 而 是 让 客户 获得 针对 大 
规模 数据 的 持续 服务 能 力 。 财 税 部 门 既 掌 握 着 第 一 手 的 纳税 人 经 营 状 况 和 财税 报告 等 信 
息 ,也 拥有 个 税 、 车 船 \ 土 地 增值 税 等 经 济 活动 信息 ,这 些 信息 勾勒 出 一 个 行政 区 域 的 经 济 脉 
络 ,将 有 可 能 成 为 政策 分 析 、 经 济 状况 评估 ,银行 借贷 \ 企 业 和 个 人 信用 评估 等 经 济 活动 的 重 
要 参考 凭证 。 数 据 的 集中 治理 .一致 性 的 数据 口径 和 大 数据 平台 提供 的 强大 处 理 能 力 是 一 
个 基础 ,后 续 数据 和 数据 之 间 的 相互 协同 和 互补 将 在 更 大 层面 影响 和 帮助 不 同 的 经 济 活 动 
参与 者 。 

技术 的 延伸 会 深刻 改变 人 们 生活 和 工作 的 方式 ,归根 到 底 , 技 术 总 会 在 某 一 个 层面 极 大 
地 提升 效率 。 大 数据 的 落地 应 用 ,创新 地 赋予 税务 行业 成 为 依靠 数据 驱动 的 高 效 行业 ,也 为 
这 个 行业 的 每 个 参与 角色 提供 服务 和 享受 服务 的 可 能 性 。 基 于 数据 的 生态 逐渐 完善 后 , 政 
府 部 门 纳税 企业 、 自 然 人 都 能 合理 有 效 地 执行 自己 的 权利 和 义务 ,而 数据 会 越 来 越 成 为 维 
持 商 业 生 态 的 能 量 载 体 ,高 效 流转 于 每 一 个 环节 的 数据 应 用 中 ,成 为 基础 服务 的 原材料 和 创 
新 应 用 的 助 推 剂 。 
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另外 , 随 着 未 来 全 国 所 有 增值 税 发 票 都 将 纳入 网 络 电子 化 管理 ,发 票 信息 也 将 全 面 纳 人 
大 数据 分 析 , 还 有 税收 工作 逐渐 从 大 面 转向 具体 的 个 人 ,必然 会 带 来 税务 数据 爆炸 式 的 增 
长 ,如 何 管 好 利用 好 这 些 数据 为 税务 工作 服务 将 是 税务 机 关 面临 的 难题 。 

大 数据 技术 在 税务 行业 的 落地 实施 ,会 是 上 述 问题 的 一 个 解决 途径 。 它 能 促使 税务 服 
务 水 平 大 幅 提 升 ,管理 进一步 优化 ,而 且 将 形成 一 整套 可 靠 的 经 济 数据 ,为 国家 的 经 济 决策 
提供 重要 参考 。 并 且 透 过 互联 网 ,移动 互联 网 、 物 联网 形成 的 大 数据 环境 ,还 能 让 税务 数据 
和 外 部 数据 联动 起 来 ,能 更 好 地 做 好 税务 风险 评估 、 税 款 征收 、 税 款 追 缴 等 一 系列 税务 工作 ， 
开创 税收 工作 的 新 局 面 。 


本 大 数据 时 代 的 电力 服务 
0 章 


人 
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国务 院 总 理 李 克 强 在 十 二 届 全 国人 大 四 次 会 议 上 指出 ,“ 创 新 驱动 发 展 战略 持续 推进 ， 
互联 网 与 各 行业 加 速 融 合 , 新 兴 产 业 快 速 增长 ”提出 要 强化 创新 引领 作用 ,为 发 展 注入 强大 
动力 。 强 调 要 持续 推动 大 众 创业 、 万 众 创新 ,促进 大 数据 、 云 计算 、 物 联网 广泛 应 用 。2015 
年 9 月 国务 院 印 发 的 (关于 促进 大 数据 发 展 的 行动 纲要 ) 强 调 , 要 开发 应 用 好 大 数据 这 一 基 

随 着 一 系列 国家 战略 与 产业 发 展 规划 的 出 台 , 作 为 国家 战略 ,大 数据 已 成 为 国家 下 一 个 
创新 .竞争 和 发 展 的 前 沿 ,也 必然 成 为 企业 提升 核心 竞争 力 的 战略 制高点 。 作 为 正 向 能 源 互 
联网 转型 的 传统 电力 行业 ,大 数据 及 云 计算 时 代 的 到 来 将 为 传统 电力 行业 的 发 展 注入 新 的 
活力 ,传统 电力 行业 有 可 能 产生 革命 性 的 变化 。 


10.1 电力 大 数据 面临 挑战 


电力 大 数据 具有 量 大 、 类 型 多 ,速度 快 等 特点 ,其 背后 反映 的 是 电网 运行 方式 .电力 生产 
方式 及 客户 消费 习惯 等 信息 ,这 些 数 据 如 果 能 挖掘 分 析 好 ,就 能 释放 大 数据 真正 的 价值 。 

大 数据 时 代 ,数据 质量 的 高 低 .数据 管控 能 力 的 强 弱 直 接 影响 了 数据 分 析 的 准确 性 和 实 
时 性 。 传 统 的 电力 行业 数据 在 可 获取 的 颗粒 程度 ,数据 获取 的 及 时 性 、 完 整 性 一 致 性 等 方 
面 的 表现 均 不 尽 如 人 意 , 数 据 源 的 唯一 性 、 及 时 性 和 准确 性 急需 提升 ,部 分 数据 尚 需 手 动 输 
入 ,采集 效率 和 准确 度 还 有 所 欠缺 ,行业 中 企业 缺乏 完整 的 数据 管控 策略 .组织 以 及 管控 流 
程 。 数 据 共享 不 畅 ,数据 集成 度 不 高 。 大 数据 技术 的 本 质 是 从 关联 复杂 的 数据 中 挖掘 知识 ， 
提升 数据 价值 ,单一 业务 .类 型 的 数据 即使 体 量 再 大 ,缺乏 共享 集成 ,其 价值 就 会 大 打折 扣 。 
目前 ,电力 行业 缺乏 行业 层面 的 数据 模型 定义 与 主 数据 管理 ,各 单位 数据 口径 不 一 致 。 行 业 
中 存在 较为 严重 的 数据 壁垒 ,业务 链条 间 也 尚未 实现 充分 的 数据 共享 ,数据 重复 存储 的 现象 
较为 突出 。 

提高 数据 利用 率 , 便 可 使 企业 提高 相应 的 利润 。 国 家 电网 作为 中 国电 力 工业 的 国有 重 
要 骨干 企业 ,早已 把 发 展 的 目光 投向 大 数据 领域 ,积极 探索 大 数据 应 用 ,挖掘 大 数据 商机 。 
电力 公司 “三 集 五 大 ”体系 和 坚强 智能 电网 建设 ,积累 了 体 量 大 、 类 型 多 、 速 度 快 等 典型 大 数 
据 特征 的 运营 数据 ,具备 了 推广 大 数据 应 用 的 基础 条 件 。 国 网 智能 电网 研究 院 的 数据 显示 ， 
截至 2015 年 年 底 , 国 家 电网 公司 管理 结构 化 数据 49. 75TB, 非 结构 化 数据 213TB, 营销 基 
础 数据 130TB, 用 电信 息 采 集 数据 达 43TB, 且 信息 化 数据 平均 每 天 以 10TB 的 速度 增长 。 
“数据 海量 \ 信 息 缺 乏 " 是 传统 能 源 企业 面临 的 问题 。 
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高 度 专业 化 的 传统 电力 企业 ,并 不 擅长 最 大 限度 地 利用 数据 。 随 着 公司 信息 化 建设 不 
断 深 入 ,业务 系统 产生 的 数据 量 呈 爆发 式 增长 ,电力 企业 目前 面临 着 大 数据 带 来 的 海量 存储 
以 及 部 分 业务 系统 面临 存储 升级 成 本 较 高 ,系统 响应 速度 较 慢 等 挑战 。 在 客户 服务 方面 , 公 
司 如 何 开展 客户 行为 大 数据 分 析 , 以 达到 提升 客户 用 电 效 能 ,提高 服务 水 平 的 目的 ? 在 电网 
安全 生产 方面 ,如 何 开展 配 电网 运行 效率 效益 分 析 , 及 时 发 现 薄弱 环节 ,优化 电网 建设 投资 ， 
提升 电网 运行 水 平 ? 在 企业 经 营 管理 方面 ,如 何 开 展业 务 执行 效率 效益 大 数据 分 析 ,关注 运 
营 中 ”敏感 点 ”发 热点 ”, 分 析 供 电 服务 ,资金 收 支 等 运营 业务 合法 合 规 性 , 防 控 经 营 风险 、 提 
升 运营 效率 ? 如 何在 提升 系统 访问 效率 的 同时 ,节约 系统 存储 成 本 ? 分 析 业 务 系统 架构 ,在 
可 能 引起 系统 访问 瓶颈 的 地 方 ,能 否 引 入 大 数据 技术 加 以 解决 ?电力 大 数据 面临 挑战 ,需要 
寻求 突破 。 


10.2 电网 运营 大 数据 


10.2.1 电网 系统 架构 现状 


电网 现 有 系统 在 技术 架构 实现 上 大 多 遵循 Java EE 技术 体系 ,按照 展现 层 、 服 务 层 、 业 
务 层 .数据 层 进 行 分 层 设计 。 展 现 层 根 据 应 用 需求 采用 多 种 技术 实现 ; 服务 层 则 以 组 件 化 、 
动态 化 为 准则 ,最 大 限度 实现 复 用 ,提供 WebService 等 方式 实现 服务 的 互通 互 用 ; 业务 层 
实现 具体 的 业务 逻辑 : 数据 层 则 根据 数据 类 型 和 业务 需求 的 不 同 ,选择 不 同 的 方式 进行 存 
取 , 大 多 数 情况 下 采用 商用 关系 型 数据 库 实现 相关 功能 ,对 于 数据 集成 方面 , 则 采用 
WebService 消息 服务 完成 。 

在 项 目 建设 上 ,大量 采 用 IOE 设备 ,IBM 小 型 计算 机 、Oracle 数据 库 、.EMC 存储 组 件 ， 
该 技术 架构 在 传统 领域 中 得 到 了 很 好 的 验证 ,针对 传统 的 业务 需求 ,如 ERP、CRM 等 均 能 
满足 需求 。 但 随 着 系统 建设 从 功能 建设 到 决策 支持 建设 的 转变 ,业务 系统 的 服务 对 象 ,从 满 
足 部 门 、 网 省 公司 需求 ,到 满足 国 网 公司 需求 ,直至 服务 于 国 网 公司 的 整体 战略 需求 ,对 业务 
数据 的 深度 挖掘 应 用 ,以 及 海量 数据 的 分 析 处 理 , 成 为 系统 的 发 展 方向 。 在 此 背景 下 ,大 数 
据 的 出 现 将 成 为 必然 。 例 如 ,为 了 保证 国 网 公司 的 保障 电力 供应 战略 ,对 特定 地 区 的 智能 电 
表 实 时 采集 数据 进行 分 析 ,采集 数据 为 TB 级 ,同时 要 求 在 此 TB 级 数据 上 快速 计算 出 相应 
的 指标 值 。 

基于 IOE 构建 的 系统 架构 在 面 对 大 数据 情况 下 ,存在 以 下 三 个 准 端 。 

(1) 商业 软件 架构 ,为 满足 大 数据 的 需求 ,其 建设 成 本 急剧 增长 ; 

(2) 商业 系统 大 多 属于 大 而 全 的 系统 ,在 大 数据 情况 下 ,大 而 全 的 系统 ,反而 暴露 出 无 
法 很 好 解决 极限 性 能 等 问题 ,从 而 成 为 整体 方案 的 瓶颈 ; 

(3) 大 多 数 产品 不 具备 横向 扩展 能 力 , 即 无 法 通过 增加 物理 节点 的 方式 获得 性 能 提升 ， 
导致 该 类 产品 必然 遭遇 性 能 瓶颈 。 


10.2.2 高 性 能 架构 设计 
电力 大 数据 具有 量 大 、 类 型 多 ,速度 快 等 特点 ,其 背后 反映 的 是 电网 运行 方式 .电力 生产 


方式 及 客户 消费 习惯 等 信息 ,这 些 数据 如 果 能 挖掘 分 析 好 ,就 能 释放 大 数据 真正 的 价值 。 
针对 电网 ,我 们 提出 了 需求 分 析 指 标 法 ,提出 对 需求 性 能 瓶颈 的 考量 方式 。 我 们 将 分 析 


指标 分 为 存储 指标 和 计算 指标 两 类 ,标注 不 同 应 用 场景 的 区 别 , 如 图 10-1 所 示 。 


计算 响应 时 间 维度 计算 处 理 目标 


分 析 指 标 





图 10-1 分 析 指 标 


1. 数据 存储 指标 

数据 存储 指标 是 对 业务 需求 中 数据 本 身 结 构 和 操作 方式 的 抽象 概括 ,从 而 明确 该 类 数 
据 在 存储 时 的 性 能 问题 。 数 据 类 型 主要 分 为 元 数据 、 主 数据 、 历 史 数 据 、 交 易 数据 、 机 器 数 
据 、Web 和 社交 媒体 。 

1) 元 数据 

元 数据 (Metadata) 是 指 描 述 数 据 的 数据 ,主要 是 描述 数据 属性 的 信息 ,用 来 支持 如 指示 
存储 位 置 . 历 史 数据 资源 查找 ,文件 记录 等 功能 。 元 数据 算是 一 种 电子 式 目录 ,为 了 达到 编 
制 目录 的 目的 ,必须 描述 并 收藏 数据 的 内 容 或 特色 ,进而 达成 协助 数据 检索 的 目的 。 

该 类 型 数据 的 特点 往往 在 于 数据 量 小 ,结构 简单 , 需 支持 高 并 发 访问 ,但 数据 关键 ,一 旦 
丢失 将 导致 其 他 系统 无 法 完成 。 

2) 主 数据 

主 数据 是 指 在 整个 企业 范围 内 各 个 系统 (操作 /事务 型 应 用 系统 以 及 分 析 型 系统 ) 间 要 
共享 的 数据 ,比如 ,与 客户 、 供 应 商 、 账 户 以 及 组 织 单 位 相关 的 数据 。 但 需要 注意 的 是 , 主 数 
据 不 是 企业 内 所 有 的 业务 数据 ,只 是 有 必要 在 各 个 系统 间 共 享 的 数据 才 是 主 数据 ,比如 大 部 
分 的 交易 数据 .账单 数据 等 都 不 是 主 数据 。 而 像 描 述 核心 业务 实体 的 数据 ,如 客户 、 供 应 商 、 
账户 .组 织 单位 员工、 合作 伙伴 、 位 置信 息 等 都 是 主 数据 。 主 数据 是 企业 内 能 够 跨 业 务 重复 
使 用 的 高 价值 的 数据 。 这 些 主 数据 在 进行 主 数据 管理 之 前 经 常 存 在 于 多 个 异 构 或 同 构 的 系 
统 中 。 

该 类 型 数据 的 特点 是 数据 量 中 等 ,关系 复杂 ,新 增 操作 多 于 修改 操作 , 需 支 持 复 杂 的 关 
系 查询 。 

3) 交易 数据 

交易 数据 是 产生 于 交易 活动 中 的 描述 性 数据 ,由 于 交易 活动 复杂 、 相 互 关 联 , 因 此 该 类 
型 数据 经 常 伴随 有 时 间 维 度 .可 量化 的 数字 和 一 个 或 者 多 个 关联 实体 。 例 如 , 订 票 业务 . 话 
费 业 务 等 都 产生 大 量 交易 数据 。 该 类 型 数据 是 对 交易 活动 的 描述 ,一 般 数 据 量 可 预 估 。 

在 高 性 能 瓶颈 上 ,该 类 型 数据 一 般 会 面临 以 下 两 大 问题 。 

一 是 并 发 性 。 由 于 该 类 数据 往往 会 遇 到 针对 某 一 资源 争 抢 , 如 抢 票 操作 等 ,因此 该 类 业 


务 系统 会 产生 瞬 值 访问 高 峰 。 

二 是 事务 性 。 数 据 操作 严格 遵守 顺序 ,必须 保证 操作 的 原子 性 ,这 对 于 分 布 式 操作 提出 
了 极 大 的 挑战 。 

4) 历史 数据 

历史 数据 在 本 处 特 指 历 史 行 为 产生 的 数据 ,该 类 数据 不 会 进行 更 改 , 但 量 大 ,如 航班 历 
史 飞 行 计划 、 用 电 历 史 数 据 等 。 前 三 类 数据 均 可 变 为 本 类 数据 ,但 在 变化 为 历史 数据 后 ,是 
不 可 修改 的 。 

该 类 型 数据 特点 是 数据 量 大 ,不 会 进行 修改 ,操作 上 更 多 以 总 体 查 询 为 主 ,对 于 个 体 明 
细 查 询 要 求 低 。 

5) 机 器 数据 

机 器 数据 指 由 计算 机 进程 .应 用 或 者 其 他 机 器 在 人 力 没 有 参与 的 情况 下 自动 产生 的 数 
据 。 该 类 型 数据 强调 了 非 人 力 参 与 ,是 对 人 类 活动 的 观察 而 不 是 对 人 类 的 选择 进行 的 。 

机 器 数据 的 显著 特征 在 于 数据 量 大 ,结构 单一 ,未 来 增长 较 快 。 该 类 型 数据 包括 Web 
服务 器 日 志 、 智 能 电表 数据 等 。 

在 高 性 能 瓶颈 上 ,该 类 型 数据 一 般 会 面临 以 下 两 大 问题 。 

一 是 写 人 性 能 。 由 于 该 类 数据 产生 速度 极 快 ,数据 量 大 ,因此 对 数据 写 入 操作 提出 了 极 
高 的 要 求 ,例如 智能 电表 数据 ,一 个 省 每 秒 的 数据 就 可 以 达到 GB 级 别 , 传 统 数据 库 难以 应 
对 如 此 巨大 的 数据 写 入 ,同时 ,如 果 没有 进行 良好 的 读 写 分 离 ,数据 库 必然 会 面临 崩溃 问题 。 

二 是 查询 性 能 。 机 器 数据 意味 着 海量 的 数据 存储 ,如 何 快速 地 在 如 此 巨大 的 数据 中 完 
成 查询 操作 ,同样 是 一 大 挑战 。 

6) Web 和 社交 媒体 数据 

Web 和 社交 媒体 数据 指 在 Web 2.0、 智 能 终端 普及 情况 下 产生 的 新 的 一 类 数据 。 该 类 
数据 产生 于 Web 应 用 以 及 社交 媒体 如 微 博 、 微 信 等 。 

其 显著 特征 在 于 ,数据 格式 各 异 ,如 图 片 . 文 字 、 音 频 等 ,同时 数据 直接 反映 了 用 户 群 体 
的 直接 需求 ,具有 极 大 的 利用 价值 。 

在 高 性 能 瓶颈 上 ,该 类 型 数据 主要 设计 考虑 点 在 于 异 构 文 件 存储 和 关联 查询 。 

2. 数据 计算 指标 


数据 计算 指标 是 对 业务 需求 中 数据 交互 .计算 等 流程 的 抽象 概括 ,核心 指标 为 计算 时 间 
以 及 计算 复杂 度 。 

1) 计算 时 间 

实时 计算 : 实时 计算 是 指数 据 计算 要 求 在 毫秒 级 别 完 成 响应 的 计算 业务 。 

准 实时 计算 : 准 实时 计算 是 指 计算 要 求 在 秒 级 别 完成 响应 的 计算 业务 。 

et 

2) 计算 复杂 

统计 型 应 用 : a 用 是 指 以 统计 为 主 的 业务 应 用 ,是 基于 现 有 数据 进行 的 统计 计 
算 ,无 须 复 杂 算 法 介入 。 

数据 挖掘 型 应 用 : 数据 挖掘 型 应 用 是 对 统计 型 应 用 的 深化 ,需要 采用 多 种 数据 挖掘 算 
法 进行 计算 的 应 用 ,该 类 型 应 用 比 统计 型 应 用 具有 更 大 的 计算 量 及 更 复杂 的 逻辑 关系 。 

查询 报表 型 应 用 : 查询 报表 型 应 用 是 指 对 精确 数值 查询 及 统计 分 析 结 果 展 现 的 应 用 ， 
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相 比 统计 型 应 用 、 数 据 挖掘 应 用 ,该 类 型 应 用 关注 于 数据 的 个 体 , 需 要 对 个 体 实现 精确 展现 。 

其 他 : 除去 上 述 三 类 应 用 的 其 他 类 型 应 用 ,如 实时 ETL 操作 等 ,该 类 型 应 用 则 需要 根 
据 实际 需求 进行 合理 的 定制 开发 。 

10.2.3 技术 选 型 

通过 需求 分 析 指 标 法 ,能 够 明确 不 同业 务 需求 下 适应 的 技术 ,解决 大 数据 情况 下 ,可 选 
用 技术 过 多 ,无 法 快速 定位 技术 应 用 场景 的 问题 ,为 高 性 能 架构 设计 做 出 指导 。 

1. 存储 类 性 能 需求 技术 选 型 

数据 存储 类 应 用 技术 选 型 准则 如 表 10-1 所 示 。 

表 10-1 数据 存储 类 应 用 技术 选 型 准则 























技术 选 型 
数据 类 型 

1MB~1GB 1GB 一 100GB 100GB 以 上 
元 数据 关系 型 数据 库 内 存 数 据 库 HBase 
主 数据 关系 型 数据 库 分 布 式 缓存 技术 十 关系 型 数据 库 HBase 
历史 数据 关系 型 数据 库 HBase HBase 
交易 数据 关系 型 数据 库 NewSQL HBase 
机 器 数据 HBase HBase HBase/ Hive 
Web 和 社交 媒体 HBase HBase HBase 











在 元 数据 业务 应 用 中 ,由 于 元 数据 的 重要 性 及 并 发 访问 量 高 的 特性 ,同时 数据 关系 简 
单 ,因此 在 数据 量 小 于 1GB 的 情况 下 ,采用 现 有 关系 型 数据 库 即 可 满足 要 求 。 当 数据 量 大 
于 1GB 时 ,系统 的 并 发 访问 瓶颈 将 凸现 出 来 ,必须 采用 内 存 数据 库 的 技术 ,更 多 地 将 数据 加 
载 在 内 存 中 保证 高 并 发 读 写 能 力 。 由 于 元 数据 的 丢失 将 导致 大 量 系统 的 不 可 用 ,因此 该 类 
型 应 用 不 适合 使 用 纯 内 存 数据 库 , 如 Redis 等 ,推荐 使 用 LevelDB 等 半 持 久 化 内 存 数据 库 。 
当 数 据 量 达到 TB 级 别 以 上 时 , 则 HBase 成 为 首选 ,由 于 HBase 本 身 的 高 吞吐 量 .响应 准 实 
时 特性 ,从 而 保证 了 满足 系统 要 求 。 

主 数据 应 用 中 ,由 于 数据 大 量 的 为 企业 名 录 、 员 工 信 息 等 .该 类 型 数据 的 特征 是 一 次 导 
和 人 后 修改 次 数 较 少 ,修改 频率 低 , 属 于 典型 的 读 多 写 少 的 应 用 ,因此 在 架构 设计 上 应 该 优先 
考虑 读 取 性 能 ,同样 地 在 小 数据 量 情 况 下 ,关系 型 数据 库 依 然 可 以 满足 需求 。 当 数据 量 上 升 
到 GB 级 别 时 , 则 推荐 使 用 分 布 式 缓存 技术 和 关系 型 数据 库 的 组 合 ,由 于 数据 读 多 写 少 , 因 
此 通过 分 布 式 缓存 技术 对 数据 库 信 息 进行 全 面 加 载 可 以 保证 数据 访问 的 高 命中 率 , 同 时 对 
现 有 架构 也 能 很 好 地 结合 。 而 数据 量 上 升 到 100GB 级 别 后 , 则 建议 采用 HBase 进行 实施 ， 
由 于 数据 量 的 大 幅度 增长 ,分 布 式 缓存 技术 加 关系 型 数据 的 方案 难以 满足 线性 扩展 的 能 力 ， 
只 有 通过 系统 的 改造 ,引入 HBase 满足 性 能 需求 。 

历史 数据 应 用 与 主 数据 应 用 类 似 , 都 属于 读 多 写 少 应 用 ,但 是 在 数据 粒度 上 ,历史 数据 
应 用 需要 支持 大 量 的 聚合 类 型 操作 ,如 求 和 ,而 主 数据 应 用 则 是 关注 于 个 体 值 详 细 结果 。 由 
于 该 处 的 不 同 ,历史 数据 推荐 采用 Hive 作为 数据 仓库 ,不 仅 易于 与 离线 计算 框架 整合 , 同 
时 能 够 将 结构 化 、 非 结构 化 数据 进行 统一 存储 管理 ,利于 数据 应 用 的 展开 。 

交易 数据 应 用 在 高 性 能 领域 中 是 难以 解决 的 问题 ,因为 交易 数据 的 事务 特性 导致 高 性 
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能 架构 理论 中 的 分 布 式 、 并 行 化 难以 实施 ,同时 复杂 join 操作 也 将 对 系统 整体 性 能 产生 极 
大 影响 ,因此 该 类 型 数据 应 用 与 业务 密切 相关 。 对 于 GB 级 别 以 上 100GB 以 下 交易 数据 应 
用 ,推荐 采用 NewSQL 技术 予以 解决 ,如 MySQL Cluster、VoltDB 等 。 该 类 型 技术 均 有 明 
显 的 业务 系统 定制 开发 特性 ,例如 MySQL Cluster 分 区 分 片 操 作 必 须 对 原 有 业务 系统 进行 
详细 的 理解 ,而 VoltDB 则 需要 对 数据 表 结 构 进行 分 区 设计 ,保证 整体 性 能 。 但 由 于 在 大 多 
数 业务 系统 中 ,交易 类 型 的 数据 一 般 均 小 于 GB 级 别 ,因此 该 类 型 数据 使 用 关系 型 数据 库 即 
可 完成 ,相关 的 统计 分 析 应 用 则 通过 ETL 转 入 到 数据 仓库 中 ,实现 OLTP 和 OLAP 的 
分 离 。 

机 器 数据 应 用 往往 会 与 后 期 分 析 挖掘 相 结合 ,由 于 机 器 数据 结构 简单 .产生 速度 快 、 数 
据 增长 量 快 , 同 时 不 存在 数据 更 新 问题 ,因此 在 建设 初期 就 可 以 采用 HBase 进行 数据 统一 
存储 。HBase 具备 在 100GB 以 内 数据 量 的 查询 统计、 分析 能 力 , 特 别针 对 结构 简单 的 机 器 
数据 HBase 的 KV 存储 模式 易于 实现 。 当 数据 上 升 到 100GB 以 上 时 ,根据 访问 时 间 响 应 
和 查询 粒度 可 以 分 别 走 两 条 技术 方案 。HBase 提供 更 好 的 数据 查询 响应 时 间 及 细 粒 度 的 
查询 结果 展示 ,Hive 则 提供 更 好 的 范围 统计 能 力 ,但 退化 为 离线 处 理 。 

Web 和 社交 媒体 数据 常常 应 用 在 用 户 价 值 分 析 、 企 业 声 誉 检测 等 业务 场景 中 ,由 于 数 
据 的 多 样 性 、 数 据 量 的 不 可 控 性 等 ,HBase 成 为 该 类 型 数据 存储 首选 。 

综 上 , 当 数 据 量 在 100GB 以 内 时 ,可 以 选择 多 样 的 解决 方案 ,但 是 当 数 据 量 大 于 100GB 
时 ,HBase/Hive 是 最 为 理想 的 解决 方案 。 

2. 计算 类 性 能 需求 技术 选 型 

数据 计算 类 应 用 技术 选 型 准则 如 表 10-2 所 示 。 


表 10-2 数据 计算 类 应 用 技术 选 型 准则 











技术 选 型 
时 间 维 度 处 理 日 标 
1MB 一 10GB 10GB 一 100GB 100GB~1TB 1TB 以 上 
统计 型 应 用 Storm Storm/ HBase 





实时 计算 数据 挖掘 应 用 Spark 十 Mlib 
查询 报表 型 应 用 | 关系 型 数据 库 | 关系 型 数据 库 























统计 型 应 用 Impala 
准 实时 计算 | 数据 挖掘 应 用 Spark 十 Mlib Spark 十 Mlib 
查询 报表 型 应 用 | 一 HBase HBase 
统计 型 应 用 Hive 
离线 计算 数据 挖掘 应 用 本 Hadoop 十 Mahout 
查询 报表 型 应 用 

















为 了 达到 实时 计算 目标 ,统计 型 应 用 在 数据 量 在 10GB 以 下 时 ,首选 方案 是 采用 流 处 理 
技术 .关系 型 数据 库 进 行 解决 ,例如 Storm 即 可 完成 大 量 的 工作 。 随 着 数据 量 增 多 , Storm 
对 资源 的 占用 将 对 业务 系统 产生 影响 ,因此 当 数 据 量 过 大 后 ,采用 HBase 不 仅 可 以 解决 系 
统 资源 占用 问题 ,还 可 以 简化 平台 组 件 维护 成 本 。 但 是 涉及 数据 挖掘 应 用 时 ,由 于 数据 挖掘 
算法 中 存在 大 量 的 迭代 运算 ,Hadoop 平 台 是 无 法 满足 性 能 需求 的 ,数据 量 在 10GB 以 内 时 
采用 Spark 加 上 MLib 的 方式 可 以 满足 性 能 要 求 。 对 于 10GB 一 100GB 的 实时 查询 报表 场 


景 ,Storm 和 HBase 则 是 最 适合 的 解决 方案 。 

针对 准 实时 计算 目标 ,由 于 响应 在 秒 级 ,针对 100GB~1TB 级 别 的 数据 的 统计 分 析 型 
应 用 采用 Impala 处 理 , 不 仅 可 以 支持 SQL ,同时 具有 良好 的 扩展 性 ,而 在 数据 挖掘 应 用 方向 
依然 首选 Spark 十 MLib 的 方案 ,但 该 方案 无 法 应 付 TB 级 以 上 数据 的 准 实时 计算 。HBase 
则 是 大 数据 量 下 的 处 理 利器 ,针对 100GB 以 上 的 数据 能 最 大 发 挥 其 优势 。 

离线 计算 性 能 要 求 只 出 现 于 1TB 数据 以 上 的 统计 型 和 数据 挖掘 场景 ,针对 如 此 大 量 的 
数据 ,采用 Hive 和 Hadoop 十 Mahout 的 解决 方案 是 扩展 性 最 好 的 实施 方案 ,如 图 10-2 
所 示 。 
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图 10-2 各 类 技术 的 容忍 时 间 


综 上 ,针对 100GB 以 下 数据 量 处 理 时 ,查询 报表 型 应 用 采用 关系 型 数据 库 是 最 为 合理 
的 解决 方案 ,不 仅 可 以 合理 地 沿用 原 有 架构 ,同时 通过 合理 的 优化 ,依然 可 以 达到 高 性 能 要 
求 。 考 虑 到 数据 的 增长 率 , HBase 作为 分 布 式 数据 库 应 该 及 时 介入 到 系统 架构 中 ,与 关系 
型 数据 库 进行 互补 。 

统计 型 应 用 ,在 实时 响应 条 件 下 ,采用 流 处 理 技术 将 批 处 理 转 为 流 式 处 理 , 提 高 计算 的 
实时 性 ,能 够 极 大 地 改变 现 有 架构 下 对 异常 数据 监控 、 监 测 的 能 力 。 但 随 着 数据 量 的 增多 ， 
实时 计算 不 再 可 能 ,通过 HBase 实现 准 实时 方案 ,是 更 好 的 方式 。 

数据 挖掘 应 用 由 于 其 计算 复杂 ,具有 大 量 和 迭代 运算 需求 ,在 100GB 场景 下 采用 Spark 
框架 ,充分 利用 其 迭代 优化 特性 ,能 够 达到 实时 、 准 实时 的 计算 响应 时 间 。 数 据 增 至 TB 级 
别 后 ,Spark 技术 方案 依然 可 以 满足 需求 ,但 考虑 到 此 数据 量 情况 下 的 挖掘 对 时 间 的 敏感 度 
进一步 降低 ,但 对 单位 计算 成 本 要 求 更 为 苛刻 ,所 以 基于 内 存 的 Spark 框架 在 单位 计算 成 本 
上 更 为 昂贵 ,采用 Hadoop 十 Mahout 的 数据 挖掘 解决 方案 ,可 以 获得 更 为 廉价 的 整体 效应 。 
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10.2.4 高 性 能 架构 设计 实践 

1. 背景 介绍 

运营 监测 系统 中 的 资金 收 支管 理 主要 针对 营销 的 售 电 数据 ,财务 的 资金 变动 .银行 账户 
等 数据 进行 监控 ,主要 包括 资金 流入 资金 存量 .资金 流出 以 及 应 收 票据 4 大 功能 。 以 资金 
流入 (该 功能 的 数据 体 量 最 大 ,其 他 的 功能 类 似 ) 为 例 : 需要 汇总 各 省 公司 的 营销 .财务 数 
据 , 通 过 计算 显示 每 小 时 、 当 日 .当月 的 汇总 数据 (总 部 .省 .地 市 ) 以 及 相关 的 明细 数据 。 现 
有 架构 如 图 10-3 所 示 。 
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图 10-3 电网 现 有 架构 


根据 现 有 方案 设计 ,主要 存在 以 下 问题 。 

(1) 根据 设计 要 求 , 需 要 每 5min 进行 一 次 汇总 计算 ,从 计算 性 能 和 系统 整体 稳定 性 等 
方面 考虑 ,通过 定时 器 触发 存储 过 程 的 方式 难以 满足 实际 需要 。 

(2) 此 方案 涉及 的 数据 规模 ,只 考虑 110kV 以 上 的 用 户 ( 约 290 万 ) 和 全 部 的 公司 账户 
数据 ,在 将 来 会 考虑 监测 全 部 的 三 亿 用 电 用 户 ,数据 量 将 会 暴涨 ,因此 在 存储 和 计算 上 提出 
了 更 高 的 要 求 。 

(3) 系统 内 部 各 个 模块 主要 采用 ETL 方式 进行 数据 流转 ,数据 流转 效率 较 低 ,难以 满 
足 实效 性 较 高 的 需求 。 

(4) 系统 整体 横向 扩展 能 力 不 高 , 且 灵 活性 不 高 。 
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2. 业务 分 析 

运营 监测 的 数据 存储 分 析 : 该 业务 数据 来 源 为 营销 数据 ,数据 类 型 为 110kV 以 上 的 用 
户 ( 约 290 万 ) 和 全 部 的 公司 账户 数据 ,因此 属于 主 数据 类 型 和 交易 数据 ,但 由 于 数据 进入 系 
统 后 不 再 改变 , 则 可 以 统一 视 为 历史 数据 。 同 时 又 由 于 未 来 数据 将 从 现在 100kV 以 上 用 户 
扩展 到 监测 全 部 的 三 亿 用 电 用 户 , 因 此 数据 对 存储 的 性 能 要 求 在 于 TB 级 别 的 数据 存储 及 
明细 数据 查询 ,对 照 存 储 类 性 能 需求 技术 选 型 准则 ,采用 HBase 进行 数据 存储 是 极其 适 
合 的 。 

运营 监测 的 业务 计算 性 能 分 析 : 该 业务 完成 每 小 时 、 当 日 、 当 月 的 汇总 数据 (总 部 、 省 、 
地 市 ) 的 指标 计算 ,并 及 时 发 觉 异 常数 据 。 因 此 该 业务 场景 属于 实时 计算 下 的 统计 分 析 应 
用 。 根 据 计算 类 性 能 需求 技术 选 型 准则 ,采用 Storm 技术 满足 实际 需求 。 

3. 架构 设计 

在 完成 技术 选 型 后 ,确定 系统 采用 HBase 集成 Storm 的 方案 进行 架构 设计 ,得 出 方案 
架构 如 图 10-4 所 示 。 
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图 10-4 架构 示意 图 


人 逻辑 部 署 示 意图 如 图 10-5 所 示 。 

在 业务 明细 数据 同步 到 缓冲 区 后 , 流 处 理 平台 通过 任务 定时 抽取 同步 过 来 的 数据 ,生成 
流 处 理 平台 的 输入 流 。 在 未 来 也 可 以 通过 消息 驱动 的 方式 ,在 同步 数据 的 同时 发 送 消息 给 
流 处 理 平台 ,实时 抽取 业务 明细 等 原始 数据 。 

在 流 处 理 平台 根据 业务 规则 ,实时 完成 收 支 计算 、Top10 统计 、 原 始 数 据 规约 化 处 理 等 
业务 功能 。 处 理 完 的 结果 会 输出 到 临时 数据 区 并 发 布 数 据 更 新 消息 。 同 时 流 处 理 系 统 可 根 
据 情 况 , 分 别 从 HBase( 主 要 存放 之 前 的 流 处 理 结果 ,及 一 些 必要 的 原始 或 中 间 数 据 ) 和 缓冲 
区 (实时 采集 数据 ) 获 得 相应 数据 (如 修正 、 补 偿 ) ,并 进行 相应 分 析 计 算 。 分 析 计 算 的 结果 存 
放 在 HBase 中 , 供 后 续 的 分 析 使 用 ,或 是 为 数据 仓库 提供 分 析 结 果 。 















消息 队列 应 用 数据 库 











流 处 理 平台 


业务 明细 数据 


分 布 式 数据 库 


图 10-5 逻辑 部 署 示意 图 


统一 视图 区 ,数据 仓库 等 系统 ,需要 根据 实时 分 析 计算 的 结果 做 进一步 处 理 , 它 们 会 在 
临时 数据 区 订阅 相应 的 主题 。 这 些 系 统 接收 到 相应 的 消息 后 ,会 从 临时 数据 区 的 缓冲 区 中 
抽取 所 需要 的 数据 。 

缓存 区 内 的 数据 会 根据 预先 设 定 的 策略 同步 到 HBase 中 。 由 于 HBase 集 高 吞吐 .大 开 
发 .复杂 计算 、 高 扩展 及 海量 数据 存储 于 一 身 , 在 将 来 进行 升级 时 ,也 可 拓展 到 其 他 模块 中 作 
为 海量 存储 及 计算 分 析 服 务 平台 。 

4. 高 性 能 架构 整体 评价 

通过 业务 分 析 确 定 了 高 性 能 架构 存在 的 性 能 瓶颈 ,从 而 在 架构 初期 选择 适当 的 技术 , 避 
免 了 未 来 性 能 瓶颈 的 出 现 。 

运营 监测 系统 采用 了 上 述 方案 后 ,具备 了 以 下 4 大 优点 。 

(1) 用 事件 触发 机 制 蔡 代 了 ETL 轮 询 方式 ,用 事件 流 取 代 批 量 数据 导入 ,从 而 增加 运 
监 系统 实时 数据 分 析 的 效率 ,由 于 去 除了 过 多 的 ETL, 保 证 了 数据 的 及 时 性 的 问题 。 同 时 ， 
充分 利用 流 计算 的 高 扩展 特性 ,提高 系统 各 个 子 模块 数据 流转 的 效率 ,实现 多 业务 系统 海量 
数据 的 实时 监测 的 要 求 。 

(2) 架构 以 分 布 式 技术 为 基础 , 流 处 理 及 消息 队列 都 采用 分 布 式 框架 实施 ,从 而 保证 系 
统 具 有 高 可 扩展 性 、 高 可 靠 性 、 高 负载 性 。 

(3) 通过 临时 数据 区 将 实时 计算 层 和 数据 消费 者 之 间 解 耦 ,增加 了 系统 的 灵活 性 。 

(4) 引入 分 布 式 数据 库 ,提供 数据 库 的 双轨 运行 ,在 兼容 现 有 系统 下 ,逐步 实现 整体 架 
构 转 向 分 布 式 数据 库 方向 ,从 而 避免 未 来 系统 一 级 部 署 情况 下 超大 规模 海量 数据 的 存储 、 处 
理 和 访问 带 来 的 种 种 难题 ,提供 了 包括 高 可 用 、 高 扩展 、 高 性 能 在 内 的 诸多 特性 。 
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目前 ,电网 发 展 已 经 进入 坚强 智能 电网 发 展 阶段 ,全 球 能 源 互 联网 正 是 坚强 智能 电网 发 
展 的 高 级 阶段 ,具有 网 架 坚 强 .广泛 互联 ,高 度 智 能 .开放 互动 的 特征 。 而 这 些 特征 与 大 数据 
都 息息相关 。 

依托 大 数据 ,能 源 管理 智能 化 已 经 成 为 新 的 大 趋势 。 一 方面 ,企业 可 以 利用 大 数据 分 析 
电 或 其 他 能 源 的 购买 量 、 可 分 析 预 测 能 源 消费 和 使 用 ,管理 能 源 用 户 、 提 高 能 源 利用 效率 , 降 
低能 源 成 本 等 。 另 一 方面 ,以 大 数据 为 核心 的 智能 电网 的 发 展 ,涉及 从 发 电 到 用 户 的 整个 能 
源 转 换 过 程 和 电力 输送 链 , 与 智能 电网 相关 的 ,如 智能 电网 基础 技术 、 大 规模 新 能 源 发 电 及 
并 网 技术 ,智能 输电 网 技术 、 智 能 配 电网 技术 及 智能 用 电 技术 等 ,将 优化 能 源 的 生产 方式 、 利 
用 方式 以 及 消费 方式 ,如 清洁 能 源 、 电 动 汽 车 的 发 展 和 利用 等 ,催生 新 的 经 济 模式 ,这 都 是 未 
来 电网 的 发 展 方向 。 

在 能 源 互 联网 十 新 电 改 的 背景 下 ,在 大 数据 十 云 计算 的 新 时 代 , 依 托 电 力 大 数据 的 电网 
将 迈进 全 新 的 时 代 。 


10.3 电网 用 户 行为 分 析 


某 区 域 的 用 电 行 为 分 析 是 电网 企业 应 用 大 数据 分 析 技 术 的 一 个 具有 代表 性 的 重要 案 
例 。 此 区 域 用 电 行 为 分 析 是 通过 对 区 域 主 网 负荷 和 用 户 负荷 有 关 数 据 挖掘 分 析 , 从 中 发 现 
宏观 主 网 层面 和 微观 用 户 层面 的 用 电 规律 和 特点 ,并 将 这 些 规律 与 电力 生产 、 调 度 和 营销 策 
略 等 相 结 合 ,促进 企业 运营 效率 提升 ,使 企业 牢 牢 占据 电力 生态 系统 的 核心 位 置 。 

用 电 行为 分 析 工 作 需 要 持续 稳定 的 智力 支撑 和 高 素质 的 队伍 支撑 。 一 是 成 立业 务 专家 
队伍 ,为 分 析 工 作 提供 业务 专业 指导 和 支持 ; 二 是 建立 部 门 级 的 联席 会 议 制度 ,对 有 关 分 析 

告 进行 部 门 会 审 ; 三 是 以 外 部 的 专业 的 大 数据 分 析 公 司 作为 支撑 机 构 , 合 力 锻造 完成 这 
个 大 数据 分 析 任务 。 在 这 个 组 织 机 构 下 主要 完成 下 述 两 方面 的 工作 。 

在 宏观 主 网 层面 , 主 网 运行 期 间 出 现 的 负荷 种 类 多 种 多 样 , 如 居民 用 电 负 荷 . 工 业 负 荷 、 
商业 负荷 等 。 随 着 经 济 的 快速 发 展 和 人 民生 活水 平 的 不 断 提 高 ,由 于 人 口 增加 、 企 业 发 展 、 
产业 增多 .工业 生产 等 多 方面 因素 所 致 ,这 些 负 荷 的 持续 增加 对 主 网 负荷 产生 较 大 影响 。 为 
维持 电力 系统 的 稳定 \ 安 全、 可 靠 运 行 ,需要 避免 主 网 在 超 负 荷 状态 下 运行 ,尽量 保持 在 一 个 
合理 的 水 平 区 间 下 运行 。 

在 微观 用 户 层面 ,单个 用 户 的 用 电 数 据 是 这 个 用 户 关于 电力 这 个 特殊 产品 下 的 消费 和 
行为 数据 ,隐藏 着 该 用 户 的 用 电 习 惯 。 对 这 些 用 电 数 据 进行 挖掘 并 研究 用 户 类 型 ,可 以 帮助 
电网 企业 了 解 用户 的 个 性 化 差异 化 服务 需求 ,从 而 使 电网 公司 进一步 拓展 服务 的 深度 和 广 
度 , 为 电力 需求 侧 响 应 提供 数据 支撑 。 

用 电 行 为 分 析 和 一 系列 配套 行动 工作 ,有 助 于 电网 企业 在 竞争 中 脱颖而出 ,成 为 最 终 赢 
家 。 这 种 独 具 创新 的 方法 一 方面 能 实现 错 峰 用 电 , 更 好 地 平衡 各 类 用 电 负 荷 的 实际 需求 , 避 
免 出 现 各 个 地 区 之 间 的 电能 供应 失衡 ; 另 一 方面 能 增强 电网 企业 和 用 户 之 间 的 互动 ,充分 
提高 居民 和 非 居民 用 电 的 节能 意识 。 用 电 行 为 分 析 对 电网 企业 意义 重大 。 本 章 重点 对 某 区 
域 的 用 电 行 为 分 析 的 流程 .技术 和 经 验 进行 详细 阐述 。 


10.3.1 分 析 目 标 及 原则 
随 着 售 电 市 场 的 放 开 ,消费 者 越 来 越 关 注 智能 用 电 领 域 的 进步 ,以 及 各 种 突破 常规 供电 





所 :下 归公 。 
服务 的 技术 创新 ,电力 消费 市 场 正 呈 现 出 千差万别 的 发 展 面 貌 和 格局 。 国 务 院 “ 新 电 改 ” 政 
策 及 消费 者 需求 不 断 升级 对 电网 企业 产生 的 压力 不 言 而 喻 ,从 而 刺激 电力 供应 商 更 关注 消 
费 者 的 参与 度 和 满意 度 。 电 网 企业 必须 在 关注 并 努力 加 强 已 有 业务 运营 工作 的 同时 , 想 方 
设法 地 继续 构建 未 来 核心 竞争 力 , 从 而 确保 在 未 来 开展 “常规 业务 ”。 

随 着 电网 公司 营销 信息 化 工作 的 快速 推动 ,客户 用 电 基 础 信息 不 断 完善 ,用 电信 息 采 集 
范围 和 采集 成 功率 逐步 提高 ,营销 业务 在 线 数据 应 用 能 力 显著 增 强 .为 应 用 大 数据 挖掘 技 
术 , 更 准确 更 有 效 地 挖掘 客户 用 电 特 征 和 用 电价 值 葛 定 了 数据 基础 。 

基于 大 数据 技术 的 客户 用 电 行 为 分 析 更 注重 对 客户 用 电价 值 挖掘 ,可 以 实现 对 客户 用 
电 行 为 定量 分 析 ,提高 客户 行为 定位 的 准确 度 ,为 更 有 效 地 开展 客户 服务 ,提高 客户 满意 度 、 
降低 电网 运营 风险 提供 决策 参考 。 

国外 对 于 用 电 行 为 分 析 主 要 集中 在 对 智能 家 居 的 用 电 进 行 分 析 , 较 国内 起 步 和 发 展 早 ， 
需要 采集 大 量 的 智能 家 居 的 用 电 详细 信息 ,不 适用 现 阶段 国内 的 实际 情况 。 

国内 对 于 用 电 行 为 分 析 主 要 是 传统 数据 量 下 的 分 析 方 法 ,主要 包括 专家 经 验 法 ,统计 分 
析 方 法 .无 监督 学 习 法 等 。 这 些 分 析 方 法 可 在 一 定 程度 上 对 用 电 行 为 进行 预测 ,但 在 大 数据 
情况 下 应 用 效果 并 不 是 很 理想 。 

如 专家 经 验 法 , 随 着 居民 用 电信 息 采 集 量 上 升 , 进 行 用 电 行 为 分 析 耗 时 耗 力 ; 如 统计 分 
析 法 ,依赖 于 大 量 的 家 电 设 备 自身 的 信息 ,采集 这 些 数据 难度 较 大 ,不 符合 日 前 的 现状 ; 如 
无 监督 学 习 , 在 传统 数据 量 下 具备 一 定 指导 价值 ,但 在 海量 数据 下 算法 运行 的 性 能 得 不 到 

同时 ,这 些 方 法 在 分 析 用 电 行 为 时 ,将 主 网 的 用 电 特 征 和 居民 的 用 电 特 征 分 割 开 看 ,在 
落地 指导 实践 时 ,忽视 了 整体 规模 效益 ,侧重 个 体 分 析 , 容 易 造 成 理论 和 实践 之 间 的 无 缝 连 
接 效果 打折 扣 。 

针对 上 述 缺 陷 , 本 案例 以 某 区 域 为 试点 ,依托 宏观 层面 和 微观 层面 的 两 个 用 电 行 为 分 析 
模型 ,以 某 区 域 的 主 网 和 该 区 域 用 电 客户 为 分 析 对 象 ,通过 用 电信 息 明 细 数 据 开展 相关 分 
析 ,重点 对 用 电 行 为 分 析 的 流程 .技术 和 经 验 进行 详细 阐述 。 

1. 工作 目标 

根据 电网 公司 营销 部 的 职责 定位 ,用 电 行 为 分 析 业 务 的 总 工作 目标 是 : 充分 发 挥 营销 
业务 信息 系统 功能 ,实时 汇总 分 析 各 类 业务 和 客户 信息 数据 ,为 公司 经 营 决策 提供 有 力 支 
撑 , 为 提高 管理 效率 和 经 济 效益 提供 保证 。 具 体 工作 目标 包含 下 述 两 个 方面 。 

(1) 宏观 层面 用 电 行 为 分 析 。 首 先 对 某 区 域 的 宏观 主 网 负荷 信息 进行 特征 分 析 , 获 取 
不 同时 期 负荷 的 曲线 特点 ; 然后 ,在 这 些 群 体 下 ,进一步 分 别针 对 居民 或 非 居民 进行 对 应 的 
用 电 情 况 分 析 。 最 后 ,将 主 网 负荷 情况 和 居民 , 非 居 民 的 情况 匹配 起 来 考虑 。 

(2) 微观 层面 用 电 行 为 分 析 。 仅 考虑 每 个 用 户 自身 的 海量 用 电 数 据 。 分 析 单 用 户 在 时 
间 维 度 下 ,不 同时 期 的 差异 化 的 用 电 负 荷 特征 。 

本 案例 在 客户 群 分 类 方面 ,在 系统 中 以 区 域 行业 、 电 价 单一 属性 定性 分 类 的 基础 上 , 通 
过 数据 分 析 方 法 ,与 客户 详细 的 用 电 行 为 特征 信息 实现 有 效 挂 钓 , 从 而 更 有 针对 性 地 提出 差 
异化 服务 策略 。 

2. 工作 原则 


准确 把 握 电 网 公司 “你 用 电 , 我 用 心 ” 的 战略 目标 ,以 提升 公司 整体 运营 效率 和 效益 
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为 目标 ,以 负荷 采集 和 监测 为 基础 .围绕 负荷 采集 和 监测 发 现 的 异动 和 问题 ,从 公司 整体 
运营 的 高 度 , 以 先进 管理 理论 和 分 析 方 法 为 指导 ,开展 跨 专业 、 跨 部 门 的 用 电 行 为 分 析 ， 
揭示 问题 成 因 、 影 响 及 风险 ,提出 对 策 建议 ,为 公司 经 营 决 策 提供 有 力 支 撑 。 遵 循 以 下 工 
作 原 则 。 

1) 全 局 性 原则 

用 电 行 为 分 析 工 作 , 应 站 在 公司 全 局 的 高 度 , 重 点 开展 跨 专业 、 跨 部 门 、 围 绕 用 户 的 深度 
分 析 , 反 映 公司 整体 运营 的 效率 和 效益 。 

2) 客观 性 原则 

用 电 行 为 分 析 工 作 , 既 依托 公司 营销 部 相关 业务 部 门 的 专业 分 析 , 又 独立 于 专业 分 析 ， 
确保 分 析 结 果 的 客观 性 。 

3) 科学 性 原则 

用 电 行 为 分 析 工 作 ,应 以 先进 的 管理 理论 为 指导 ,运用 科学 的 分 析 方法 ,构建 科学 的 分 
析 模 型 ,确保 分 析 工 作 的 科学 性 。 

4) 有 效 性 原则 

通过 用 电 行 为 分 析 工 作 ,揭示 问 题 和 异动 的 成 因 ,影响 及 风险 ,提出 改进 建议 和 措施 ,为 
公司 决策 提供 有 力 支撑 ,提升 管理 效率 和 经 济 效益 ,确保 分 析 工 作 的 有 效 性 。 

5) 创新 性 原则 

用 电 行 为 分 析 工 作 ,应 结合 外 部 数据 和 信息 ,应 用 先进 分 析 技 术 , 创 新 分 析 思 路 和 分 析 
方法 ,提升 分 析 质 量 。 


10.3.2 用 电 行 为 分 析 总 体 架构 


对 于 电网 用 户 的 行为 分 析 主 要 从 宏观 和 微观 两 个 层面 进行 。 

一 是 宏观 层面 用 电 行 为 分 析 。 通 过 总 结 主 网 负荷 下 不 同 客 户 群 负荷 特性 规律 ,可 以 有 
效 识别 具体 移 峰 填 谷 潜力 大 客户 ,为 公司 开展 有 序 用 电 管 理 . 电 网 规划 建设 提供 参考 。 实 现 
思路 是 在 研究 电力 业务 的 基础 上 ,根据 某 区 域 一 年 内 的 主 网 用 电 负 荷 信息 ,对 主 网 的 负荷 进 
行 不 同日 期 的 分 群 。 进 一 步 根据 这 些 主 网 负荷 群体 特点 ,结合 用 户 的 客户 档案 信息 ,用 电 行 
为 数据 等 ,利用 基于 Map Reduce 下 的 K-means 的 聚 类 方法 进行 二 次 聚 类 ,完成 海量 数据 下 
的 用 户 用 电 行 为 分 析 , 以 更 进一步 提高 电网 需求 侧 能 效 管 理 水 平 ,为 公司 决策 提供 更 有 针对 

二 是 微观 层面 用 电 行 为 分 析 。 基 于 通过 收集 `. 归 类 和 定义 不 同属 性 和 行为 特征 的 单一 
客户 ,分 析 单一 客户 在 不 同时 间 的 差别 用 电 服 务 需求 ,为 公司 有 针对 性 地 开展 客户 服务 工 
作 ,提升 客户 服务 效率 提供 参考 。 实 现 思路 是 根据 居民 或 非 居民 的 自身 负荷 曲线 在 一 年 内 
的 特征 ,采用 基于 Map Reduce 下 的 K-means 分 别 对 不 同 的 时 期 单 用 户 负荷 进行 聚 类 ,获得 
居民 及 非 居 民 负荷 曲线 在 不 同日 期 下 的 分 群 。 这 个 用 户 分 类 模型 研究 成 果 , 可 以 为 下 一 步 
针对 不 同 用 户 群 体 进 行 需求 侧 响应 方面 的 分 析 和 预测 研究 打下 基础 。 

本 案例 中 用 电 行 为 分 析 主 要 包括 数据 采集 .数据 集成 和 存储 数据 预 处 理 和 模型 构建 以 
及 模型 应 用 和 预测 结果 展现 ,具体 如 图 10-6 所 示 。 

具体 用 电 行 为 分 析 中 涉及 的 4 个 内 容 如 下 所 示 。 
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数据 集成 和 存储 数据 预 处 理 和 模型 构建 模型 应 用 和 预测 结果 展现 


eee 


票 类 曲线 图 


模型 应 用 数据 


聚 类 曲线 图 











可 视 化 展现 
图 10-6 ”用 电 行 为 分 析 的 总 体 框架 图 


1. 数据 采集 

数据 采集 是 收集 电网 营销 内 部 和 外 部 的 各 类 型 .规模 较 大 的 数据 ,内 部 数据 采集 侧重 在 
整合 不 同业 务 系统 之 间 的 数据 ,外 部 数据 采集 侧重 在 通过 网 络 怜 虫 获取 第 三 方 数据 。 

1) 内 部 数据 采集 

内 部 数据 采集 主要 通过 内 部 已 有 的 、 彼 此 分 离 的 营销 业务 应 用 系统 和 用 电信 息 采 集 系 
统 等 传统 业务 系统 中 提取 数据 。 对 于 结构 化 的 数据 通过 数据 抽取 转化 工具 来 实现 ,包括 数 
据 的 初始 化 、 数 据 的 增 量 抽取 ; 对 于 非 结 构 数 据 通过 程序 语言 开发 特定 工具 实现 数据 直接 

内 部 数据 采集 的 主要 困难 在 于 打破 部 门 职能 藩 篇 、 进 行 跨 部 门 数 据 共享 的 思维 和 意识 。 
只 有 充分 认识 到 内 部 数据 采集 共享 的 价值 ,才能 打破 内 部 数据 孤岛 ,实现 数据 的 互联 互通 。 
内 部 数据 的 抽取 有 利于 电网 公司 整合 内 部 资源 .一定 程度 上 能 加 强 数据 的 可 见 性 .协作 性 与 
创造 性 ,从 而 帮助 电网 企业 大 幅 节 约 成 本 ,提升 竞争 优势 。 但 内 部 数据 的 维度 相对 集中 , 属 
于 特定 领域 的 点 状 数据 。 需 要 整合 更 多 的 外 部 数据 来 扩展 数据 的 维度 ,丰富 数据 的 属性 刻 
面 , 帮 助 电网 企业 进行 已 有 业务 的 优化 和 新 增 业 务 的 衍生 。 

2) 外 部 数据 采集 

外 部 数据 采集 一 般 有 三 种 实现 方式 : 第 一 种 方式 可 以 通过 合作 伙伴 进行 数据 共享 ,第 
二 种 方式 可 以 通过 数据 交换 实现 第 三 方 公司 的 数据 采集 ,第 三 种 方式 可 以 通过 网 络 怜 虫 获 
取 外 部 数据 。 第 四 种 方式 可 以 通过 手动 的 方式 进行 外 部 数据 处 理 。 

这 里 重点 阐述 第 三 种 数据 采集 方式 : 网 络 信息 抓 取 服务 。 网 络 数据 怜 虫 是 指 输入 固定 
的 数据 源 ,按照 一 定 的 过 滤 和 数据 获取 规则 ,自动 抓 取 互联 网 网 上 数据 。 网 络 数据 怜 虫 的 难 
点 有 两 个 ,一 个 是 数据 源 网 站 的 反 疏 虫 设置 ,如 通过 用 户 请 求 的 Headers、 基 于 用 户 行为 反 
疏 虫 等 技术 ,造成 的 数据 抓 取 困 难 ; 一 个 是 数据 源 本 身 以 图 片 为 载体 造成 的 数据 获取 困难 。 


针对 第 一 个 难点 ,需要 针对 源 网 站 的 反 疏 虫 技术 ,分 别 采 用 相应 的 破解 技术 ,如 在 疏 虫 中 修 
改 或 者 添加 Headers、 使 用 IP 代理 等 方式 ,实现 相关 数据 的 顺利 候 取 。 针 对 第 二 个 难点 ,可 
以 利用 特定 技术 ,如 光学 字符 识别 方法 ,通过 图 像 增强 、 锐 化 .边缘 检测 等 方法 ,进行 特征 提 
取 和 模型 训练 ,从 而 获取 图 片 中 的 数据 。 

本 案例 中 天 气 和 节假日 等 外 部 数据 的 怜 虫 有 利于 电网 公司 整合 外 部 数据 资源 ,使 得 点 
状 数据 扩展 为 带 状 和 网 状 的 数据 ,更 好 地 增强 数据 的 互联 性 、 智 能 性 、 弹 性 和 快捷 性 ,激发 出 
全 新 的 工作 思路 和 工作 方式 ,利于 已 有 业务 的 财务 表现 和 新 增 业 务 的 价值 构建 。 

2. 数据 集成 和 存储 

对 这 些 数 据 进行 存储 和 处 理 , 基 于 电网 营销 数据 量 越 大 , 越 需 要 各 种 不 同 种 类 的 存储 ， 
且 电 网 营销 数据 运营 的 大 数据 架构 是 可 扩展 的 。 

1) 数据 存储 

数据 存储 主要 提供 分 布 式 的 存储 功能 。 数 据 存 储 面临 的 主要 挑战 是 数据 大 容量 通常 可 
达到 PB 级 的 数据 规模 ,那么 对 于 海量 数据 存储 系统 扩展 能 力 的 要 求 也 会 很 高 。 同 时 ,这 海 
量 的 数据 中 存在 大 量 信息 是 无 效 的 ,有 效 信息 可 能 只 分 布 在 一 个 较 短 的 时 间 段 内 ,大 量 的 数 
据 存储 给 数据 库 带 来 不 小 的 压力 ,而 无 效 的 数据 更 是 对 于 资源 的 浪费 。 

存储 层 一 般 由 Hadoop 生态 系统 以 及 关系 型 数据 库 构 建 ,Hadoop 生态 系统 主要 用 于 海 
量 数 据 的 存储 ,主要 包括 HDFS 分 布 式 文件 系统 、HBase 分 布 式 数 据 库 以 及 Hive 分 布 式 数 
据 仓库 。 存 储 层 支撑 对 PB 级 别 甚至 更 大 级 别 的 数据 整合 、 存 储 与 管理 ,同时 具有 强大 的 容 
错 能 力 和 平滑 的 线性 扩展 性 。HDFS 分 布 式 文件 系统 是 整个 大 数据 存储 的 基础 ,在 它 之 上 
构建 HBase 分 布 式 的 数据 库 和 Hive 数据 仓库 。 

2) 数据 计算 

数据 计算 主要 提供 分 布 式 的 计算 与 处 理 功 能 。 数 据 计算 的 挑战 是 数据 处 理 速 度 响应 的 
及 时 性 。 系 统 中 的 分 布 式 数 据 计 算 模 型 一 般 基 于 Spark 框架 来 实现 ,应 用 于 大 数据 的 实时 
处 理 和 批 处 理 计算 分 析 任 务 执行 ,可 以 解决 大 数据 计算 中 的 交互 查询 及 流 式 计 算 等 核心 
问题 。 

Spark 由 于 提供 了 一 套 支 持 DAG 图 的 分 布 式 并 行 计 算 的 编程 框架 减少 多 次 计算 之 间 
中 间 结 果 写 到 HDFS 的 开销 ,提供 Cache 机 制 来 支持 需要 反复 迭代 计算 或 者 多 次 数据 共享 
减少 数据 读 取 的 IO 开销 ,使 用 多 线程 池 模型 来 减少 task 启动 开销 等 诸多 优点 ,是 满足 电网 
业务 数据 计算 需求 的 最 佳 选择 。 

3. 数据 预 处理 和 模型 构建 

利用 数据 挖掘 技术 ,在 传统 结构 化 数据 处 理 上 为 用 户 提 供 越 来 越 多 的 实时 挖掘 和 分 析 ， 
这 些 实时 的 智能 服务 可 以 支持 实时 的 决策 制定 。 

数据 预 处 理 主要 是 对 质量 较 低 的 数据 ,如 缺失 \ 不 准确 .异常 的 数据 ,进行 缺失 值 填 充 、 
异常 值 检 测 . 离 群 值 检测 和 规范 化 处 理 等 。 这 里 对 缺失 值 填充 进行 侧重 说 明 。 缺 失 值 是 指 
在 数据 采集 与 整理 过 程 中 丢失 的 内 容 。 缺 失 值 的 处 理 一 般 有 两 种 方式 ,一 是 删除 对 应 的 记 
录 ,例如 在 用 电 行 为 分 析 中 ,如 果 某 客户 某 一 天 没有 记录 ,出 现 缺失 , 则 将 该 客户 当天 所 有 负 
荷 信 息 全 部 从 数据 库 中 删 掉 。 这 种 方式 在 数据 缺失 非常 少 的 情况 下 是 可 行 的 ,但 如 果 各 个 
项 目 中 都 有 少数 的 数据 缺失 ,对 所 有 缺失 的 记录 都 进行 删除 可 能 就 会 使 总 样本 量变 得 非常 
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小 ,从 而 损失 许多 有 用 信息 。 缺 失 值 处 理 的 第 二 种 方式 是 进行 插值 处 理 , 所 谓 插值 ,是 指 人 
为 地 用 一 个 数值 去 蔡 代 缺失 的 数值 。 在 用 电 行 为 分 析 中 ,为 保证 数据 分 析 的 数量 和 准确 性 ， 
一 般 进行 第 二 种 插值 处 理 , 且 采用 “均值 "和 *“ 众 数 ” 两 种 方式 进行 填充 。 

数据 挖掘 和 分 析 是 从 大 量 的 数据 中 通过 算法 搜索 信息 并 发 现 隐 藏 于 数据 中 有 趣 、 有 用 
的 模式 和 关系 的 过 程 。 数 据 挖掘 和 分 析 的 主要 难点 是 如 何 将 技术 和 算法 应 用 到 实际 业务 中 
去 ,从 而 提升 传统 的 电网 营销 业务 运作 效率 并 改变 运营 模式 。 

本 案例 中 主要 涉及 的 数据 挖掘 和 分 析 模 型 算法 是 聚 类 。 聚 类 是 把 一 组 未 带 类 别 标签 的 
数据 分 群 ,使 类 内 距离 最 小 ,类 间距 离 最 大 ”, 包 括 并 行 K-means`EM、 两 步 京 类 和 视觉 聚 
类 等 。 电 网 公司 进行 用 电 行 为 分 析 ,确定 客户 群体 的 类 别 、 客 户 用 电 行业 背景 分 析 、 客 户 电 
力 衍 生 品 购买 趋势 预测 ,大 客户 用 电 市 场 的 细 分 等 。 

4. 模型 应 用 和 预测 结果 展现 

模型 应 用 是 基于 电网 营销 的 数据 和 外 部 数据 的 模型 分 析 结果 通过 可 视 化 的 手段 进行 展 
,为 领导 层 提 供 管理 经 营 决策 支撑 。 

可 视 化 是 利用 计算 机 图 形 学 和 图 像 处 理 技术 ,涉及 计算 机 图 形 学 .图 像 处 理 . 计算机 视 
\ 计 算 机 辅助 设计 等 多 个 领域 ,将 数据 转换 成 图 形 或 图 像 在 屏幕 上 显示 出 来 ,并 进行 交互 
处 理 的 理论 方法 和 技术 。 本 案例 主要 是 聚 类 的 模型 结果 展示 。 


10.3.3 宏观 层面 用 电 行 为 分 析 


宏观 层面 的 用 电 行 为 分 析 方 案 主要 包括 下 面 三 个 内 容 。 

(1) 历史 主 网 负荷 分 群 。 主 要 基于 EM 聚 类 实现 某 区 域 主 网 的 负荷 分 群 ,完成 不 同日 
期 下 的 全 省 负荷 特点 。 

(2) 二 次 聚 类 。 基 于 主 网 的 历史 负荷 分 群 结果 ,进一步 分 析 这 些 日 期 群 下 非 居民 /居民 
的 负荷 特点 。 按 照 曲线 相似 性 度量 以 及 最 大 负荷 值 ,对 比 这 些 用 户 的 负荷 曲线 和 主 网 同期 
的 负荷 曲线 ,可 以 得 出 * 迎 峰 型 光 逆 峰 型 "等 用 电 特 征 类 型 。 

(3) 待 分 析 日 的 历史 相似 日 匹配 。 按 照 待 分 析 日 和 历史 日 的 最 佳 匹配 关系 ,得 到 待 分 
析 日 的 “ 移 峰 填 谷 ”模式 匹配 结果 。 

具体 如 下 。 

1. 历史 主 网 负荷 分 群 

从 某 区 域 的 调度 信息 化 系统 中 ,获取 某 区 域 的 主 网 历史 一 年 多 的 主 网 负荷 数据 ,采样 时 
间 范 围 为 2015 年 01 月 01 日 至 2016 年 05 月 10 日 ,采样 间隔 为 15min, 每 个 用 户 每 天 采样 
96 点 数据 , 见 表 10-3。 
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表 10-3 EM 聚 类 的 输入 








日 期 4 时 刻 负荷 ts 时刻 负 荷 ‘ne tss 时 刻 负荷 
dayl 370 410 加 390 
day2 378 385 本 400 




















dayn 405 395 本 二 410 


根据 最 大 期 望 EM 算法 的 运行 原理 ,主要 是 交替 使 用 最 大 期 望 判别 所 属 分 布 和 极 大 似 
然 估计 概率 参数 这 两 个 步骤 ,逐步 改进 模型 的 参数 ,使 参数 和 训练 样本 的 似 然 概率 逐渐 增 
大 ,最 后 终止 于 一 个 极 大 点 ,从 而 将 主 网 负荷 所 有 日 期 分 成 三 个 群体 : 聚 类 0、 聚 类 1 和 聚 
类 2, 见 图 10-7。 
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一 形 类 0 一 聚 类 | 一 了 类 2 
图 10-7 某 区 域 主 网 聚 类 的 结果 


通过 图 10-7 可 以 发 现 , 聚 类 2 的 中 心 点 负荷 水 平 最 低 , 聚 类 1 的 中 心 点 负荷 水 平 最 高 ， 
聚 类 0 的 中 心 点 负荷 水 平 处 于 二 者 之 间 。 结 合 这 三 个 类 的 标号 下 不 同日 期 的 节假日 分 布 和 
季节 分 布 性 质 ,可 以 得 到 各 类 主 网 的 负荷 行为 特点 ,如 表 10-4 所 示 。 
表 10-4 主 网 聚 类 结果 的 特征 分 析 
类 名 类 别 节假日 周末 工作 日 春 夏 秋 冬 
普通 型 聚 类 0 | 18.52% | 34.09% | 33.60% | 46.67% | 31.87% | 29.35% | 22.83% 


高 峰 型 聚 类 1 0.00% | 30.68% | 32.00% | 20.00% 0.00% | 65.22% | 31.52% 
假日 型 聚 类 2 | 81.48% | 35.23% | 34.40% | 33.33% | 68.13% | 5.43% | 45.65% 



































可 以 看 出 ,“ 高 峰 型 - 聚 类 1” 的 负荷 都 比较 高 ,几乎 不 包含 节假日 ,这 些 日 期 主 网 的 负荷 
水 平 处 于 较 高 位 置 , 调 峰 压 力 较 高 。“ 假 日 型 - 聚 类 2” 的 负荷 相对 最 低 , 主 要 是 节假日 期 间 
对 主 网 负荷 贡献 率 较 高 的 工业 型 负荷 处 于 休息 状态 。 而 “普通 型 - 聚 类 0” 的 负荷 处 于 两 种 
之 间 的 水 平 。 

2. 二 次 聚 类 

进一步 地 ,针对 聚 类 0、 聚 类 1 和 聚 类 2 分 别 进行 群体 用 户 的 用 电 特 征 分群 任 务 。 这 里 
收集 了 该 区 域 2015 年 01 月 01 日 至 2016 年 05 月 10 日 共 535 个 用 户 用 电 数据 , 数 据 采集 
频率 为 每 隔 15min 一 次 ,每 个 用 户 每 日 采取 96 个 点 负荷 数据 。 

在 聚 类 前 需要 对 用 户 的 负荷 数据 进行 预 处 理 , 主 要 是 缺失 值 和 异常 值 的 处 理 。 缺 失 值 
采用 近 一 周 的 负荷 平均 值 填充 ,对 于 异常 值 采取 “3- 西 格 玛 法 ”。 异 常 值 检 测 和 处 理 具体 如 
下 述 方法 。 

一 是 纵向 判断 。 设 某 用 户 i 天 i 时 刻 的 负荷 为 y(i,0) ,检验 历史 不 同日 期 n 天 下 该 测量 


点 .该 时 刻 的 负荷 平均 值 为 严 (1,.…:,z) ,标准 差 为 6.(1,.…,7) , 若 |y(Gi0) 一 天 (1 ,2 | 之 3X 
8 (1,…,7), 则 该 点 在 纵向 上 为 异常 值 。 

二 是 横向 判断 。 设 某 测量 点 i 天 t 时 刻 的 负荷 为 y(i,?) ,检验 i 天 下 不 同时 刻 的 m 个 负 
荷 平 均值 为 &:(1,…,m) ,标准 差 为 6:(1,… ,mm) ,车 |yGiD 一 jG1l, :| 二 3X8C1 
mm) , 则 该 点 在 横向 上 为 异常 值 。 

如 以 上 两 条 全 部 满足 ,这 个 点 对 应 的 数值 为 异常 值 .需要 进行 蔡 换 ,替换 时 用 纵向 的 平 
均值 进行 蔡 换 

(Blo) +3 XG yi) > pl, sn) 
y(i,t) = 1 可 _ 
磷 (1, 0 一 3X82(1 00，y(Gi Zl, n) 

其 中 ,该 点 异常 值 蔡 换 后 为 y(i,2); 最 后 检验 : 若 y(i,2) 小 于 0, 则 置 为 0。 

数据 预 处 理 结 束 后 ,分别 对 聚 类 0、 聚 类 1 和 聚 类 2 这 些 日 期 下 的 用 户 群 进行 二 次 聚 
类 ,过 程 主要 的 方法 是 利用 并 行 K-means 算法 完成 二 次 聚 类 ,主要 包括 下 述 三 个 步骤 。 

初始 化 步骤 : 首先 确定 聚 类 个 数 ,随机 确定 各 类 中 心 ,得 到 初始 的 二 类 标号 ,属性 值 之 ， 
同时 将 原始 数据 集 分 成 若干 个 数据 块 。 

Map 步骤 : 将 每 一 个 数据 子 集 对 应 分 配给 一 个 map 函数 ,针对 每 个 数据 块 ,计算 每 个 
数据 项 所 属 类 别 。 类 标号 是 当前 样本 相对 于 输入 数据 文件 起 始点 的 偏 移 量 ,map 函数 首先 
将 属性 值 解析 成 当前 样本 的 各 个 维度 的 坐标 值 ,然后 基于 欧式 距离 公式 计算 其 与 & 个 中 心 
点 的 距离 , 找 出 与 该 样本 最 近 距 离 簇 的 下 标 , 即 每 个 数据 点 都 被 匹配 到 对 应 的 二 类 标号 , 属 
性 值 二 。 

Reduce 步骤 : 归并 各 块 聚 类 结果 得 到 完整 的 聚 类 结果 ,重新 计算 类 中 心 作 为 下 一 次 迭 
代 的 输入 。 将 map 阶段 分 群 结果 进行 集合 ,新 集合 中 所 有 对 应 键 的 相同 值 被 归 类 在 一 起 。 
reduce 函数 首先 解析 出 从 层级 合并 中 处 理 的 样本 个 数 和 相应 节点 各 个 维度 累加 的 坐标 值 ， 
然后 将 对 应 值 分 别 相 加 , 除 以 总 样本 个 数 , 即 获得 新 的 中 心 点 坐标 ,形成 一 个 输出 的 键 / 值 对 
去 类 标号 ,属性 值 > ,继续 进行 下 一 次 迭代 直至 算法 收敛 。 

基于 上 述 三 个 步骤 得 到 聚 类 0、 聚 类 1 和 聚 类 2 的 二 次 聚 类 下 用 户 用 电 规律 曲 线 。 

结合 二 次 聚 类 后 中 心 点 最 大 负荷 和 由 皮尔 森 系 数 计算 得 到 的 相关 系数 ,二 次 聚 类 后 曲 
线 最 大 负荷 越 大 ,对 主 网 的 负荷 影响 力 就 越 高 ,是 进行 “是 否 进行 负荷 控制 ?时 曲线 匹配 的 最 
重要 的 影响 因素 ; 皮尔 森 系数 大 于 0.7 说 明 该 用 户 负荷 和 主 网 负荷 曲线 相似 度 高 ,小 于 0.7 
说 明 二 者 相似 度 低 ,而 皮尔 森 系数 为 负 的 时 候 说 明 该 用 户 负 和 荷 和 主 网 负荷 曲线 相似 度 为 负 
向 相关 。 

观察 曲线 和 计算 结果 ,可 以 发 现 : 聚 类 0 的 用 户 的 用 电 规 律 可 以 归纳 为 三 种 ,在 同一 日 
期 和 时 刻下 ,对 于 “普通 型 - 聚 类 0” 主 网 负荷 , 主 网 负荷 高 的 时 候 第 一 子 类 曲线 所 对 应 的 这 
些 测量 点 对 应 的 负荷 也 比较 高 ,二 者 相关 系数 为 0. 9863, 属 于 “前 峰 填 谷 ”对 象 ,如 图 10-8 
所 示 。 

聚 类 1 的 用 户 的 用 电 规 律 可 以 归纳 为 4 种 ,在 同一 日 期 和 时 刻下 ,对 于 “高 峰 型 - 聚 类 1” 
主 网 负荷 , 主 网 负荷 高 的 时 候 第 一 子 类 曲线 所 对 应 的 这 些 测量 点 对 应 的 负荷 也 比较 高 ,二 者 
相关 系数 为 0. 9799 ,属于 “ 削 峰 填 谷 对象, 如 图 10-9 所 示 。 
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聚 类 2 的 用 户 的 用 电 规 律 可 以 归纳 为 5 种 ,在 同一 日 期 和 时 刻下 ,对 于 “节假日 型 - 聚 类 
2? 主 网 负荷 , 主 网 负荷 高 的 时 候 第 一 子 类 曲线 所 对 应 的 这 些 测量 点 对 应 的 负荷 也 比较 高 ,二 
者 相关 系数 为 0.9764, 属 于 “前 峰 填 谷 "对象; 主 网 负荷 高 的 时 候 第 四 子 类 曲线 所 对 应 的 这 
些 测 量 点 对 应 的 负荷 比较 低 ,二 者 相关 系数 为 一 0. 5998, 属 于 “鼓励 用 电 ” 对 象 ; 如 图 10-10 
所 示 。 
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图 10-10 某 区 域 主 网 聚 类 2 的 二 次 聚 类 结果 


3. 待 分 析 日 与 历史 日 匹配 

在 当前 年 度 应 用 二 次 聚 类 结果 时 ,根据 历史 用 户 负 荷 特征 的 错 峰 用 电 策 略 ,利用 动态 时 
间 规 整 算法 找到 当前 年 度 待 分 析 日 和 历史 日 的 相似 匹配 , 即 可 以 得 到 当前 年 度 待 分 析 日 的 
潜在 的 用 电 行 为 。 

将 为 期 一 年 的 日 期 划分 为 三 个 日 期 集合 : 节假日 .周末 以 及 工作 日 。 当 待 测 日 为 节 假 
日 时 ,直接 用 历史 节假日 所 归属 的 群体 进行 用 电 行为 分 析 。 当 待 测 日 为 周末 或 者 是 工作 日 
时 ,需要 根据 温度 利用 动态 时 间 规整 算法 分 别 在 历史 周末 集合 和 工作 日 集合 中 寻找 相似 日 。 
待 分 析 日 和 目标 日 匹配 过 程 如 图 10-11 所 示 。 

动态 时 间 规 整 算法 的 输入 为 历史 年 时 间 段 内 周末 或 工作 日 温度 序列 To 二 (Ti,* 
Tv) ,当前 年 同时 间 段 内 且 包 含 待 测 日 的 周末 或 工作 日 温度 序列 Tu 一 (Ti， …,T.), 满 中 
m 宇 n。 实 现 过 程 是 搜索 从 (1,1) 点 出 发 搜索 至 (m.n) ,可 以 展开 若干 条 路 径 , 可 计算 每 条 路 
径 达 到 (m4, 点 时 的 总 的 积累 距离 ,通过 逐 点 向 前 寻找 就 可 以 求 得 整 条 路 径 , 具 有 最 小 累积 
距离 者 即 为 规整 路 径 。 动 态 时 间 规 整 算法 的 输出 为 最 小 规整 距离 ,以 及 历史 日 期 点 和 当前 
日 期 点 的 匹配 关系 结果 。 

这 样 ,利用 动态 时 间 规 整 算法 ,每 个 待 测 日 都 可 以 找到 历史 中 的 相似 匹配 日 ,按照 相似 
日 所 对 应 的 主 网 负荷 表现 , 若 此 客户 取 避 开 高 峰 用 电 方式 .有 利于 电网 安全 运行 ,不 是 开展 
错 避 峰 用 电 措 施 的 重点 。 
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图 10-11 待 分析 日 和 目标 日 匹配 过 程 


如 表 10-5 所 示 为 一 个 测量 点 日 期 匹配 示例 。 
表 10-5 测量 点 日 期 匹配 示例 

















用 户 ID 当前 年 待 分 析 日 历史 年 的 相似 日 聚 类 标号 
用 户 A 2016-05-08 2015-04-25 主 网 聚 类 1 的 第 一 子 类 
用 户 也 2016-05-08 2015-04-25 主 网 聚 类 2 的 第 四 子 类 


通过 分 析 每 类 客户 用 电 负荷 特征 ,识别 具有 移 峰 填 谷 潜力 客户 ,并 提出 负荷 管理 建议 。 
针对 待 分 析 日 计算 得 到 匹配 历史 日 后 , 若 负 荷 曲 线 特 征 和 主 网 曲线 特征 高 度 相 似 , 且 自身 负 
荷 曲线 最 大 负荷 值 比较 高 ,对 电网 安全 运行 影响 较 大 ,是 开展 错 避 峰 措 施 的 重点 客户 ,同时 
需要 关注 该 类 客户 电气 设备 安全 使 用 情况 。 

针对 这 类 “ 迎 峰 型 "重点 客户 (如 表 10-5 中 的 用 户 A) ,建议 开展 可 中 断 负荷 及 补偿 分 析 
工作 ,分 析 重 点 客户 移 峰 填 谷 潜力 ,在 错 峰 用 电 时 需要 给 予 重 点 关注 和 有 序 用 电 引 导 。 具 体 
实施 时 ,业务 人 员 可 以 结合 业务 经 验 和 用 户 档 案 信 息 , 进 一 步 找 到 更 精准 的 “有 序 用 电 ” 用 
户 , 为 电网 平稳 、 安 全 运行 提供 辅助 决策 支撑 。 如 业务 人 员 分 析 用 户 A 的 客户 档案 信息 得 
选 出 其 为 “ 单 班次 生产 “高 耗 能 -造纸 ”的 工业 用 户 , 则 可 作为 实际 操作 时 的 错 峰 用 电 对 象 进 
行 引 导 。 

而 用 户 负荷 曲线 特征 均 属于 * 逆 峰 型 "的 (如 表 10-5 中 的 用 户 B) ,已 基本 采取 避 开 高 峰 
用 电 方式 ,对 主 网 负荷 总 体 影 响 不 大 ,有 利于 电网 安全 运行 ,不 是 开展 错 避 峰 措 施 的 重点 对 
象 ,在 错 峰 用 电 时 需要 给 予 鼓励 保持 用 电 习 惯 。 


10. 3.4 微观 层面 用 电 行 为 分 析 


微观 层面 的 用 电 行 为 分 析 方 案 主要 包括 下 面 三 个 内 容 。 
(1) 单个 居民 型 用 电 行 为 分 析 。 将 用 电 类 型 为 城镇 居民 和 农村 居民 的 用 户 筛 选 出 来 ， 














针对 每 一 个 居民 用 户 ,利用 EM 算法 按照 不 同日 期 下 的 负荷 数据 进行 分 群 ,掌握 单一 居民 
用 户 的 用 电 特 征 。 

(2) 单个 工业 型 用 电 行 为 分 析 。 将 用 电 类 型 为 一 般 工 业 和 大 工业 的 用 户 筛 选 出 来 , 针 
对 每 一 个 工业 型 用 户 , 利 用 两 步 聚 类 算法 按照 不 同日 期 下 的 负荷 数据 进行 分 群 ,掌握 单一 工 
业 用 户 的 用 电 特 征 。 

(3) 单个 商业 型 用 电 行为 分 析 。 将 用 电 类 型 为 一 般 工 商业 的 用 户 筛选 出 来 ,针对 每 一 
个 商业 用 户 , 利 用 视觉 聚 类 算法 按照 不 同日 期 下 的 负荷 数据 进行 分 群 ,掌握 单一 商业 用 户 的 
用 电 特 征 。 

1. 单个 居民 型 

本 文 共 收集 了 160 户 居民 家 庭 用 电 数 据 , 采 样 时 间 范 围 为 2015-01-01 一 2016-05-10, 采 
样 间隔 为 15min ,每 户 居民 每 天 采样 96 点 数据 。 将 这 些 数 据 去 除 噪声 (有 些 采样 值 很 大 ) 后 
全 部 作为 单个 居民 型 用 电 行 为 分 析 的 实验 数据 ,以 此 为 基础 对 居民 用 户 类 型 的 用 电 特 征 展 
开 研 究 。 

单一 客户 负荷 分 群 的 目的 是 根据 客户 各 种 负荷 数据 ,将 具有 相同 特征 的 日 期 聚集 在 一 
起 ,不 同日 期 的 负荷 分 散 开 ,因此 这 里 采用 EM 聚 类 算法 进行 分 群 ,符合 单一 客户 不 同时 间 
下 负荷 特征 分 群 的 要 求 。 

EM 聚 类 结束 后 ,根据 自 定义 的 聚 类 性 能 评价 指标 进行 模型 的 效果 评估 。 评 价 指标 自 
动 判 断 聚 类 个 数 ,利用 算法 自动 筛选 最 优化 的 聚 类 个 数 。 评 价 指标 设计 的 原则 是 "类 间距 离 
最 大 ,类 内 距离 最 小 ”, 具 体 如 下 : 

[ 


其 中 ,表示 类 数 ,n 表示 对 于 第 i 类 有 n 个 样本 .V; 表 示 第 i 类 的 类 中 心 ,zj 表示 第 i 类 
第 j 个 样本 值 ; & 在 一 个 指定 区 间 内 (例如 &AE[L1,5]), 求 POC 值 最 大 ,代表 该 类 为 最 佳 类 。 

按照 上 述 方法 ,可 以 得 到 单一 居民 在 不 同日 期 下 的 负荷 的 不 同 特性 。 对 这 些 聚 类 结果 
的 解读 ,一 方面 可 以 指导 居民 更 好 地 用 电 , 另 一 方面 可 以 让 电网 企业 了 解 居 民用 电 的 特点 ， 
为 制定 分 时 电价 时 提供 支撑 。 

下 面 通过 一 个 居民 型 用 户 的 结果 示例 进行 说 明 : 通过 EM 聚 类 和 最 佳 聚 类 评估 指标 ， 
将 该 用 户 一 年 内 的 日 期 负荷 分 为 两 个 群体 , 见 图 10-12 。 

进一步 地 ,联系 第 一 类 和 第 二 类 标号 所 对 应 的 日 期 的 季节 分 布 特点 ,很 明显 地 发 现 : 第 
一 类 负荷 曲线 的 平均 负荷 较 高 ,时 间 分 布 以 夏季 和 冬季 为 主 ; 第 二 类 负荷 曲线 的 平均 负荷 
较 低 ,以 春季 为 主 ,如 表 10-6 所 示 。 

由 此 ,联系 该 居民 用 户 所 属 的 区 域 , 该 区 域 为 典型 的 中 国内 陆 南 方 城市 ,夏季 温度 较 高 ， 
需要 空调 等 进行 室内 制冷 ; 冬季 温度 降低 .需要 空调 等 进行 室内 升温 。 

同时 ,观察 一 天 的 曲线 平均 负荷 ,可 以 明显 观察 到 三 个 小 高 峰 , 早 晨 7 点 至 8 点 ,中 午 
11 点 至 12 点 ,下 午 17 点 至 18 点 ,如 图 10-13 所 示 。 结 合 居民 用 电 的 特点 ,可 以 推测 为 早 
餐 . 中 餐 和 晚餐 的 时 间 ,因为 一 些 咖啡 机 、 面 包机 、 电 饭 煲 和 烤箱 等 家 用 电器 的 阶段 性 工作 引 
起 该 时 段 的 负荷 出 现 波动 。 
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8 大 数据 : 引爆 新 的 价值 点 


代入 kW 某 城镇 居民 第 一 类 负荷 曲线 
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图 10-12 某 城镇 居民 聚 类 结果 
表 10-6 某 城镇 居民 聚 类 特征 
第 一 类 第 二 类 
季节 春季 夏季 秋季 冬季 春季 夏季 秋季 冬季 


占 比 26.09% | 80.43% | 53.85% | 92.59% | 73.91% 19.57% | 46.15% 07.41% 
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图 10-13 ” 某 城镇 居民 聚 类 中 心 点 负荷 曲线 


2. 单个 工业 型 

本 文 共 收集 了 215 户 工业 型 用 电 数 据 , 采 样 时 间 范 围 为 2015-01-01 一 2016-05-10, 采 样 
间隔 为 15min, 每 户 工业 用 户 每 天 采样 96 点 数据 。 将 这 些 数据 去 除 噪声 (有 些 采 样 值 很 大 ) 
后 全 部 作为 单个 工业 型 用 电 行 为 分 析 的 实验 数据 ,以 此 为 基础 对 工业 用 户 类 型 的 用 电 特 征 
展开 研究 。 

考虑 到 工业 型 用 户 ( 尤 其 是 大 客户 ) 数 量 大 , 且 对 整个 电网 企业 的 盈利 贡献 占 比 较 高 , 达 
到 总 体 80% 以 上 ,对 这 些 工业 型 的 负荷 特征 分 析 需 要 更 慎重 。 因 此 在 获取 了 这 些 用 户 的 负 
荷 数据 后 的 第 一 步 进行 数据 预 处 理 ,这 里 重点 强调 离 群 值 检 测 。 

离 群 值 检 测 在 预 聚 类 步骤 进行 。 将 相对 于 其 他 子 聚 类 具有 较 少 记录 的 子 聚 类 视 为 潜在 
离 群 值 , 且 重新 构建 不 包括 这 些 记录 的 子 聚 类 树 。 子 聚 类 被 视 为 包含 潜在 离 群 值 的 下 限 大 
小 由 百分比 选项 控制 。 如 果 其 中 某 些 潜在 离 群 值 记录 与 任何 新 子 聚 类 配置 足够 相似 , 则 可 
将 其 添加 到 重新 构建 的 子 聚 类 中 。 将 其 余 无 法 合并 的 潜在 离 群 值 视 为 离 群 值 添 到 “噪声 ” 聚 
类 中 并 排除 在 分 层 聚 类 步骤 之 外 。 

使 用 经 过 离 群 值 处 理 的 “两 步 ? 模 型 对 数据 进行 评分 时 ,会 将 与 最 近 主 要 聚 类 的 距离 
大 于 特定 闪 值 距离 (基于 对 数 似 然 ) 的 新 观测 值 视 为 离 群 值 分 配 到 ”噪声 " 聚 类 中 ,名 称 
海王 和 

在 预 处 理 后 ,开始 利用 聚 类 进行 负荷 特征 分 群 。 在 聚 类 算法 中 ,两 步 聚 类 可 以 非常 迅速 
地 对 大 量 聚 类 解决 方案 进行 分 析 并 为 训练 数据 选择 最 佳 聚 类 数 。 通 过 设置 最 大 聚 类 数 和 最 
小 聚 类 数 指定 要 尝试 的 聚 类 解决 方案 的 范围 。“ 两 步 聚 类 "通过 一 个 两 阶段 过 程 确定 最 佳 聚 
类 数 。 在 第 一 个 阶段 , 随 着 所 添加 聚 类 的 增多 ,可 基于 贝 叶 斯 信息 准则 (BIC) 中 的 差异 选择 
模型 中 聚 类 数 的 上 限 。 在 第 二 个 阶段 ,为 聚 类 数 比 最 小 BIC 解决 方案 还 少 的 所 有 模型 找 出 
聚 类 间 最 小 距离 的 差异 。 距 离 的 最 大 差异 用 于 识别 最 终 聚 类 模型 。 

这 样 ,利用 两 步 法 ,可 以 得 到 单一 工业 用 户 在 不 同日 期 下 的 负荷 不 同 特性 。 对 这 些 聚 类 
结果 的 解读 ,一 方面 可 以 指导 工业 用 户 开展 有 序 用 电 , 另 一 方面 可 以 让 电网 企业 了 解 工业 用 
电 的 特点 ,在 制定 电价 优惠 时 提供 支撑 。 

下 面 通过 一 个 工业 型 用 户 的 结果 示例 进行 说 明 : 通过 二 步 聚 类 ,将 该 用 户 一 年 内 的 日 
期 负荷 分 为 两 个 群体 , 见 图 10-14。 

进一步 地 ,联系 第 一 类 和 第 二 类 标号 所 对 应 的 日 期 的 季节 分 布 特点 ,很 明显 地 发 现 : 第 
一 类 负荷 曲线 的 平均 负荷 较 低 ,第 二 类 负荷 曲线 的 平均 负荷 较 高 ,但 无 论 是 第 一 类 负荷 还 是 
第 二 类 负荷 ,这 两 类 负荷 曲线 在 季节 分 布 上 差异 不 明显 ,如 表 10-7 所 示 。 

由 此 ,联系 该 工业 用 户 所 属 的 行业 类 别 为 “谷物 磨 制 ”, 该 类 型 的 企业 在 季节 性 上 确实 无 
太 大 差异 ,但 一 个 统计 周期 内 主要 是 以 第 二 类 负荷 特征 为 主 。 

同时 ,观察 一 天 的 曲线 平均 负荷 ,可 以 明显 观察 到 : 第 一 类 负荷 曲线 整体 较 低 ,工作 节 
奏 比 较 缓慢 ,包含 两 个 小 高 峰 : 早晨 8 点 至 12 点 和 下 午 13 点 至 17 点 。 第 二 类 负荷 曲线 整 
体 较 高 ,工作 时 长 比较 大 ,包含 三 个 小 高 峰 : 早晨 8 点 至 12 点、 晚上 18 点 至 22 点。 结合 该 
工业 用 户 的 生产 班次 安排 的 特点 ,可 以 推测 这 家 企业 工作 类 型 为 “两 班 制 ”, 需 要 在 用 电 检 查 
时 多 给 予 关 注 ,以 免 发 生 违规 不 合格 用 电 现象 。 


150) 大 数据 : 引爆 新 的 价值 点 
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图 10-14 某 工业 用 户 聚 类 结果 

表 10-7 某 工业 用 户 聚 类 特征 
第 一 类 第 二 类 
季节 春季 夏季 秋季 冬季 春季 夏季 秋季 冬季 
占 比 19.48% | 23.53% | 27.16% | 27.27% | 80.52% | 76.47% | 72.84% | 72.73% 
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一 聚 类 ] 一 聚 类 2 
图 10-15 某 工 业 用 户 聚 类 中 心 点 负荷 曲线 


3. 单个 商业 型 
本 文 共 收集 了 160 户 商业 用 电 数 据 , 采 样 时 间 范 围 为 2015-01-01 一 2016-05-10 ,采样 间 


隔 为 15min, 每 户 商业 用 户 每 天 采样 96 点 数据 。 将 这 些 数据 去 除 噪 声 ( 有 些 采 样 值 很 大 ) 后 
全 部 作为 单个 商业 型 用 电 行 为 分 析 的 实验 数据 ,以 此 为 基础 对 商业 用 户 类 型 的 用 电 特 征 展 
开 研 究 。 

考虑 到 商业 型 用 户 对 电网 企业 来 说 属于 新 增 潜力 比较 大 的 群体 ,非常 有 必要 单独 将 这 
部 分 用 户 进行 特征 分 析 。 因 此 在 获取 了 这 些 用 户 的 负荷 数据 后 ,类似 工业 型 用 户 ,第 一 步 需 
要 进行 数据 预 处 理 , 这 包括 缺失 值 .异常 值 和 离 群 值 检 测 处 理 。 

针对 数据 预 处 理 之 后 的 数据 质量 较 高 的 数据 ,开始 利用 聚 类 进行 负荷 特征 分 群 。 在 聚 
类 算法 中 ,视觉 聚 类 可 以 较为 准确 地 对 实现 分 群 并 为 训练 数据 自动 选择 最 佳 聚 类 数 。 在 视 
觉 聚 类 算法 中 ,每 一 个 数据 点 被 视 作 空 间 的 一 个 光 点 ,于 是 一 个 数据 集 对 应 构成 了 空间 中 的 
一 幅 图 像 。 当 模糊 化 这 一 图 像 时 ,每 一 个 小 光 点 首先 变化 为 一 个 小 光斑 。 进 一 步 地 模糊 ,使 
得 小 光斑 逐渐 溶 为 大 光斑 。 当 分 辩 率 充分 低 时 ,整个 图 形 便 成 为 一 个 光斑 。 如 果 将 每 个 光 
斑 看 成 一 个 类 , 则 上 述 模糊 化 的 过 程 便 形成 逐 级 聚 类 树 , 结 点 代表 不 同 尺 度 聚 类 的 类 , 父 结 
点 代表 的 类 由 子 结 点 所 代表 的 类 融合 而 成 。 过 程 中 尺寸 变化 维持 时 间 最 长 的 时 候 , 对 应 的 
即 为 最 佳 聚 类 个 数 。 

这 样 ,利用 视觉 聚 类 法 ,可 以 得 到 单一 商业 用 户 在 不 同日 期 下 的 负荷 不 同 特性 。 对 这 些 
聚 类 结果 的 解读 ,一 方面 可 以 指导 商业 用 户 开 展 有 序 用 电 , 另 一 方面 可 以 让 电网 企业 了 解 商 
业 用 电 的 特点 ,在 制定 电价 优惠 时 提供 支撑 。 

下 面 通过 一 个 商业 型 用 户 的 结果 示例 进行 说 明 : 通过 视觉 聚 类 ,将 该 用 户 一 年 内 的 日 
期 负荷 分 为 三 个 群体 , 见 图 10-16 。 
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图 10-16 某 商业 用 户 聚 类 结果 


162 大 数据 : 引爆 新 的 价值 点 


进一步 地 ,联系 第 一 类 、 第 二 类 标号 和 第 三 类 所 对 应 的 日 期 的 季节 分 布 特点 ,很 明显 地 
发 现 : 第 一 类 负荷 曲线 的 平均 负荷 最 高 ,第 二 类 负荷 曲线 的 平均 负荷 一 般 水 平 , 第 三 类 负荷 
曲线 的 平均 负荷 水 平 最 低 。 第 一 类 负荷 以 夏季 和 冬季 为 主 ; 第 二 类 负荷 以 春季 为 主 ; 第 三 
类 负荷 以 秋季 为 主 ,如 表 10-8 所 示 。 

表 10-8 某 商 业 用 户 聚 类 特征 
第 一 类 第 二 类 第 三 类 
春季 | 夏季 | 秋季 | 冬季 | 春季 | 夏季 | 秋季 | 冬季 | 春季 | 夏季 | 秋季 | 冬季 








07.61%|73.91%|18. 68% |74. 44% |50. 00% |00. 00% |00. 00% |01. 11%|42. 39%|26. 09%|81. 32%|42.39% 






































由 此 ,联系 该 商业 用 户 所 属 的 行业 类 别 为 “物业 管理 ”, 该 类 型 的 企业 在 每 年 年 中 ,以 及 
春节 等 时 间 上 工作 节奏 强度 最 高 ,在 季节 上 表现 为 夏季 和 冬季 。 春 季 属 于 新 一 年 的 规划 时 
期 ,工作 节奏 也 较 高 , 相 比较 夏季 和 冬季 ,秋季 工作 忙碌 程度 上 确实 较 低 。 

同时 ,观察 一 天 的 曲线 平均 负荷 ,可 以 明显 观察 到 : 第 一 类 负荷 曲线 全 天 工作 从 早晨 8 
点 至 晚上 22 点 整体 最 高 ,中 午 和 下 午 均 无 休息 间断 ,一 天 的 工作 节奏 比较 紧张 。 第 二 
荷 曲 线 全 天 工作 从 早晨 8 点 至 晚上 22 点 整体 较 高 ,尤其 是 下 午 18 点 至 晚上 22 点 出 现 小 高 
峰 , 工 作 时 长 比较 大 。 第 三 类 负荷 曲线 全 天 基本 接近 为 0, 排除 掉 停电 故障 后 ,可 推测 在 这 
个 群体 下 的 日 期 里 该 商业 用 户 的 生产 班次 安排 最 为 悠闲 。 
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图 10-17 某 商业 用 户 聚 类 中 心 点 负荷 曲线 


通过 对 微观 层面 的 用 电 行 为 分 析 , 完 成 了 居民 型 .工业 型 和 商业 型 用 户 的 用 电 行 为 分 
析 。 通 过 横向 对 比 ,可 以 看 出 居民 型 工业 型 和 商业 型 用 户 三 者 之 间 在 用 电 上 差异 较 大 。 这 
样 , 在 某 区 域 的 分 类 电价 的 制定 时 ,相关 的 时 间 周 期 长 度 为 电网 企业 确定 平 段 、 峰 段 和 谷 段 
等 提供 依据 。 在 掌握 用 户 负荷 特征 的 基础 上 ,可 以 更 好 地 进行 负荷 的 短期 预测 。 此 外 ,在 进 
行 需 求 侧 管理 时 ,通过 对 用 户 负 荷 特点 进行 把 握 , 有 利于 未 来 微 电 网 环境 下 小 区 域内 的 电力 
输 配 和 调度 供电 管理 。 

综 上 ,通过 对 用 电 行 为 分 析 的 总 体 架构 设计 、 宏 观 层面 用 电 行 为 分 析 和 微观 层面 用 电 行 
为 分 析 , 可 以 有 效 地 将 相关 成 果 与 电网 企业 现 有 的 供电 服务 有 序 用 电 、 催 缴 回收 、 安 全 用 电 
以 及 智能 用 电 等 业务 场景 结合 起 来 ,促进 该 区 域 电 网 企业 对 外 客户 提供 更 优质 、 可 靠 的 供电 
服务 。 








ey 
和 10 妆 大 教 据 时 代 的 电力 服务 有 9 
伴随 着 智能 电表 等 计量 装置 的 普及 .电网 企业 累积 了 越 来 越 多 的 数据 ,数据 分 析 的 力量 
和 价值 将 进一步 地 凸显 ,成 为 推动 电网 企业 和 用 户 互动 参与 的 一 股 主要 力量 。 大 数据 分 析 
促进 电网 企业 等 公用 事业 机 构 利 用 创新 的 数据 分 析 和 数据 架构 方法 解决 企业 运营 中 的 问 
题 ,也 为 新 业务 领域 商业 化 创造 契机 。 
未 来 ,电网 企业 通过 更 主动 和 科学 地 洞察 电力 用 户 的 消费 特点 和 趋势 ,为 电力 消费 者 提 
供 更 明智 的 电力 产品 .服务 和 解决 方案 ,才能 在 变革 的 浪潮 中 勇 立 潮 头 。 


